第一财经杂志 2024年08月18日
xAI大模型Grok-2上线,支持文生图;Sakana AI推出首个AI科学家,已经发了10篇论文
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本周AI领域有多项重要成果,包括xAI大模型Grok-2支持文生图、昆仑万维发布AI流媒体音乐平台、讯飞智文2.0强化PPT生成能力等

🎈xAI大模型Grok-2上线,其融合图像模型FLUX.1,支持文生图功能,且人为限制较少,还能结合X平台用户内容回答问题,在多项能力上比Grok-1.5有显著改进

🎵昆仑万维推出全球首个AI流媒体音乐平台Melodio,用户输入提示词可生成定制化音乐,还同步推出AI音乐商用创作平台Mureka,二者均搭载Skymusic 2.0大模型

📄讯飞智文2.0正式上线,依托讯飞星火V4.0大模型,实现PPT一键生成,并在文本生成、编排创作引擎、在线编辑模组方面进行了技术升级

👨‍🔬Sakana AI联合多所大学推出首个AI科学家,已生成10篇论文,该系统包括想法生成、实验迭代、撰写论文、自动审稿四个部分

🏓Google DeepMind训练的乒乓球机器人能与人类业余选手比赛,其由工业机器人手臂和自研软件组成,通过模拟环境和真实比赛训练,但存在一些击球缺陷

🎙阿里通义开源音频语言模型Qwen2-Audio,具备语音聊天和音频分析模式,支持多种语言和方言,阿里云开源模型以吸引更多开发者

Key Points

本周应用与模型

xAI大模型Grok-2上线,支持文生图;

昆仑万维发布全球首个AI流媒体音乐平台Melodio,想听什么歌AI生成;

讯飞智文2.0正式上线,强化PPT生成能力;

Sakana AI推出首个AI科学家,已经发了10篇论文;

Google DeepMind训练的机器人在乒乓球比赛中与人类选手有来有回;

阿里通义开源音频语言模型Qwen2-Audio。

 

本周应用

xAI大模型Grok-2上线,支持文生图

8月15日,xAI宣布推出Grok-2和Grok-2 mini测试版,在聊天、编码和推理能力上有所提升。两款模型目前可供社交平台X上的Premium和Premium+付费用户使用。两款模型还融合了图像模型FLUX.1,所以支持文生图功能。据用户反馈,该产品的人为限制较少,例如它可以直接创建政治人物图片。在回答问题时,Grok-2还会搜索并结合X的用户发布的内容来回复用户的问题。

xAI通过一系列学术基准评估Grok-2模型,这些基准包括推理、阅读理解、数学、科学和编码。从模型测评的结果来看,Grok-2和Grok-2mini都比之前的Grok-1.5模型有了显著改进。

参考链接

https://x.ai/blog/grok-2

 

昆仑万维发布全球首个AI流媒体音乐平台Melodio,想听什么歌自己生成

8月14日,昆仑万维发布全球首个AI流媒体音乐平台Melodio。该平台在APP和网页端均可使用,用户根据自己的心情、场景等输入Prompt(提示词)后,Melodio能够立即生成并持续播放相应风格的定制化音乐,并且允许用户随时修改输入文案、查询歌词、保存和分享音乐片段。从试用体验看,Melodio能够持续稳定生成特定风格歌曲的AI音乐平台,用户在音乐生成时,能够持续输出曲风、曲调、速度、和弦、配器相似的特定风格歌曲。

当天,昆仑万维同步推出AI音乐商用创作平台Mureka。用户进入Mureka的Create页面即可开始创作音乐,创作流程包括输入歌名和歌词、添加参考音乐、选择音乐的风格和情绪。歌曲创作完成后,用户还能按需延长当前乐曲,或重新生成不满意的段落。在Mureka创作歌曲将消耗用户付费积分,用户能获得音乐创作证明,并申请在Mureka歌曲商店中展示、出售。用户在平台出售歌曲的收益,Mureka会按既定比例抽佣。

AI音乐创作平台Mureka的操作界面。

据悉,Melodio与Mureka均搭载昆仑万维自研DiT架构AI音乐大模型Skymusic 2.0,通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成,支持6分钟的44100Hz采样率双声道立体声歌曲,支持500字以上的歌词输入。

昆仑万维成立于2008年,目前旗下业务覆盖AGI与AIGC、信息分发、元宇宙、社交娱乐及游戏等多个领域。公司秉持「AllinAGI与AIGC」战略,致力于实现通用人工智能,目前全球平均月活跃用户近4亿,海外收入占比达86%。

参考链接

https://mp.weixin.qq.com/s/HQHpUL5rFmAJLxlnEoU-Ow

 

讯飞智文2.0正式上线,强化PPT生成能力

8月12日,科大讯飞宣布旗下智能文档产品——讯飞智文2.0正式上线。该应用依托讯飞星火V4.0大模型,支持PPT一键生成——用户输入PPT主题或上传文本、文档,讯飞智文2.0即可生成PPT。

讯飞智文2.0生成的的名为《中国主要大模型公司发展现状》PPT内容示例。

该应用实现了PPT文本生成大模型、AI PPT编排创作引擎、AI PPT在线编辑模组三大技术升级。

首先,在文本生成方面,与上一版本相比,讯飞智文一方面对用户输入主题具备更强大的理解能力,允许联网搜索,自动抓取实时资讯;另一方面对长文本的内容理解、抽取和总结能力进一步强化,其「文本创建」功能支持12000字输入。

第二,讯飞智文2.0搭载了全新的AI PPT编排创作引擎,能够根据内容的实际丰富度自由调整PPT的框架结构,还能够基于星火V4.0的多模态能力定制配图。

第三,讯飞智文2.0拥有更灵活的PPT在线编辑模组,允许用户对生成PPT的字体、配色、特效、图表等做个性化编辑。

据悉,讯飞星火V4.0于今年6月27日发布,基于全国首个国产万卡算力集群「飞星一号」训练,对标GPT4-Turbo,在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面实现超越。

参考链接

https://mp.weixin.qq.com/s/cbiTd8xTX3YCVFmFFb7UGw

 

本周模型

Sakana AI推出首个AI科学家,已经发了10篇论文

8月13日,日本AI公司Sakana AI联合牛津大学、不列颠哥伦比亚大学的研究员宣布,推出一款名为AI Scientist的综合AI系统,可用于自动化科学研究和开放式发现。目前,AI Scientist已经生成了10篇完整的学术论文,每篇论文的成本约为15美元。该系统由以下四个部分组成:

想法生成:AI Scientist会选择一系列研究方向,并在Semantic Scholar上搜索,验证这些想法是否是新颖的。

实验迭代:AI Scientist将运行提议的实验,撰写论文所需的信息,并生成图表可视化结果,如图表和实验笔记。

撰写论文:AI Scientist用标准机器学习会议的风格编写了一份论文,并检索学术文献,自主查找相关论文引用。

自动审稿:在完成论文之后,AI能够以接近人类的准确性评估生成的论文,实现了持续的反馈循环,使AI Scientist能够迭代地改进其研究成果。

Sakana AI成立于2023年7月,创始人之一是来自Google的Transformer作者之一Llion Jones。该公司称其名字sakana源自日语单词さかな(sa-ka-na),意思是鱼,旨在反映鱼群聚集在一起并按照简单规则形成一个连贯实体的想法。目前该公司已经陆续推出四款日语专用的生成式AI。

不久前的6月,Sakana AI刚完成了约1.43亿美元的融资,投资方包括Lux Capital、NEA、Khosla Ventures等,投后估值约11.42亿美元,成为目前唯一一家日本AI独角兽公司。

参考链接

https://sakana.ai/ai-scientist-jp/

 

Google DeepMind训练的机器人在乒乓球比赛中与人类选手有来有回

8月9日,Google DeepMind旗下研究团队在康奈尔大学管理的电子预印本平台arXiv上发布文章,展示了一个AI智能体驱动的乒乓球机器人,能够与人类业余选手打个有来有回。

Google DeepMind研究团队把让机器人公司ABB开发的工业机器人手臂IRB 1100装上一款3D打印的球拍,再结合自研的定制软件训练AI智能体,让机器人手臂可以挥舞球拍。这款AI智能体由乒乓球技能库和筛选最有效技能的高级控制器组成,研究团队汇集了乒乓球状态的数据集,包括位置、旋转和速度,再由高级控制器根据当前的比赛数据提取数据库中的数据。

摄像头跟踪乒乓球轨迹信息用于模型训练。

研究团队使用了两个部分开发AI智能体。研究团队搜集了少量人类选手的比赛数据作为初始任务条件,再借助计算机构建模拟环境,在模型环境中通过强化学习训练AI智能体,让其掌握击球技巧。然后,研究团队再让AI智能体驱动真实世界中的机器人手臂与人类选手比赛,获取新的数据微调。在与人类选手比赛时,研究团队设置了一对摄像头跟踪乒乓球的位置,同时通过人类选手球拍上的LED的动作捕捉系统跟踪球手的比赛风格。模拟环境的训练、真实世界的比赛形成了连续循环,帮助AI智能体持续改进击球策略。

机器人与人类乒乓球比赛视频片段。

受限于机器人手臂的局限性,这款乒乓球机器人无法发球,因而在与人类选手比赛时做了调整。这款AI智能体与29名不同能力、且没有对抗过的人类对手比赛,赢得了其中的13场。其中,这款AI机器人在与初学者的比赛中赢得了全部比赛,在与中级选手的比赛中赢得了55%的比赛,但在与高水平以及超高水平的选手比赛中全部落败。

目前,这款AI智能体面对高低球、反手以及乒乓球旋转时都存在击球缺陷。例如,当乒乓球被击打得非常快,超出AI智能体的视野(距离球桌上方六英尺以上)或非常低时,这款乒乓球机器人就很难完成击球。

参考链接

https://arxiv.org/abs/2408.03906

 

阿里通义开源音频语言模型Qwen2-Audio

8月14日,阿里云宣布,Qwen2系列开源家族新增音频语言模型Qwen2-Audio、新一代数学模型Qwen2-Math。其中,Qwen2-Audio是一款大型音频语言模型(LALM),具备语音聊天和音频分析两种使用模式,声音理解能力和指令跟随能力相比前代模型Qwen-Audio都有提升。在使用时,Qwen2-Audio无需文本输入,可以直接语音问答,目前已经支持包括中文、英语、法语、意大利语、西班牙语、德语、日语,以及粤语在内的超过8种语言和方言。

阿里云在今年5月就已经发布了超过10个开源模型。在阿里云产品文档中,通义千问开源系列目前包括视觉理解模型「通义千问VL」系列、大语言模型系列(包括Qwen、Qwen2、Qwen1.5、代码模型CodeQwen1.5)以及音频模型「通义千问Audio」系列。

阿里云选择开源模型的路线,目标是吸引更多开发者。在本季度的财报电话会上,吴泳铭表示,开源模型在「开发者的广泛使用」上更占优势,当开发者更多使用阿里云的开源模型,也会在应用上线的时候优先用阿里云的AI产品。「在中国市场上我们是唯一一家提供开源模型且同时提供AI云服务的厂商。」吴泳铭表示。

参考链接

https://mp.weixin.qq.com/s/bZndjFFe4DM7tdDFt3-eRQ

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI应用 xAI 昆仑万维 讯飞智文 Sakana AI Google DeepMind 阿里通义
相关文章