xAI大模型Grok-2上线，支持文生图；Sakana AI推出首个AI科学家，已经发了10篇论文

Key Points

本周应用与模型

● xAI大模型Grok-2上线，支持文生图；

● 昆仑万维发布全球首个AI流媒体音乐平台Melodio，想听什么歌AI生成；

● 讯飞智文2.0正式上线，强化PPT生成能力；

● Sakana AI推出首个AI科学家，已经发了10篇论文；

● Google DeepMind训练的机器人在乒乓球比赛中与人类选手有来有回；

● 阿里通义开源音频语言模型Qwen2-Audio。

本周应用

xAI大模型Grok-2上线，支持文生图

8月15日，xAI宣布推出Grok-2和Grok-2 mini测试版，在聊天、编码和推理能力上有所提升。两款模型目前可供社交平台X上的Premium和Premium+付费用户使用。两款模型还融合了图像模型FLUX.1，所以支持文生图功能。据用户反馈，该产品的人为限制较少，例如它可以直接创建政治人物图片。在回答问题时，Grok-2还会搜索并结合X的用户发布的内容来回复用户的问题。

xAI通过一系列学术基准评估Grok-2模型，这些基准包括推理、阅读理解、数学、科学和编码。从模型测评的结果来看，Grok-2和Grok-2mini都比之前的Grok-1.5模型有了显著改进。

参考链接

https://x.ai/blog/grok-2

昆仑万维发布全球首个AI流媒体音乐平台Melodio，想听什么歌自己生成

8月14日，昆仑万维发布全球首个AI流媒体音乐平台Melodio。该平台在APP和网页端均可使用，用户根据自己的心情、场景等输入Prompt（提示词）后，Melodio能够立即生成并持续播放相应风格的定制化音乐，并且允许用户随时修改输入文案、查询歌词、保存和分享音乐片段。从试用体验看，Melodio能够持续稳定生成特定风格歌曲的AI音乐平台，用户在音乐生成时，能够持续输出曲风、曲调、速度、和弦、配器相似的特定风格歌曲。

当天，昆仑万维同步推出AI音乐商用创作平台Mureka。用户进入Mureka的Create页面即可开始创作音乐，创作流程包括输入歌名和歌词、添加参考音乐、选择音乐的风格和情绪。歌曲创作完成后，用户还能按需延长当前乐曲，或重新生成不满意的段落。在Mureka创作歌曲将消耗用户付费积分，用户能获得音乐创作证明，并申请在Mureka歌曲商店中展示、出售。用户在平台出售歌曲的收益，Mureka会按既定比例抽佣。

据悉，Melodio与Mureka均搭载昆仑万维自研DiT架构AI音乐大模型Skymusic 2.0，通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成，支持6分钟的44100Hz采样率双声道立体声歌曲，支持500字以上的歌词输入。

昆仑万维成立于2008年，目前旗下业务覆盖AGI与AIGC、信息分发、元宇宙、社交娱乐及游戏等多个领域。公司秉持「AllinAGI与AIGC」战略，致力于实现通用人工智能，目前全球平均月活跃用户近4亿，海外收入占比达86%。

参考链接

https://mp.weixin.qq.com/s/HQHpUL5rFmAJLxlnEoU-Ow

讯飞智文2.0正式上线，强化PPT生成能力

8月12日，科大讯飞宣布旗下智能文档产品——讯飞智文2.0正式上线。该应用依托讯飞星火V4.0大模型，支持PPT一键生成——用户输入PPT主题或上传文本、文档，讯飞智文2.0即可生成PPT。

该应用实现了PPT文本生成大模型、AI PPT编排创作引擎、AI PPT在线编辑模组三大技术升级。

首先，在文本生成方面，与上一版本相比，讯飞智文一方面对用户输入主题具备更强大的理解能力，允许联网搜索，自动抓取实时资讯；另一方面对长文本的内容理解、抽取和总结能力进一步强化，其「文本创建」功能支持12000字输入。

第二，讯飞智文2.0搭载了全新的AI PPT编排创作引擎，能够根据内容的实际丰富度自由调整PPT的框架结构，还能够基于星火V4.0的多模态能力定制配图。

第三，讯飞智文2.0拥有更灵活的PPT在线编辑模组，允许用户对生成PPT的字体、配色、特效、图表等做个性化编辑。

据悉，讯飞星火V4.0于今年6月27日发布，基于全国首个国产万卡算力集群「飞星一号」训练，对标GPT4-Turbo，在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面实现超越。

参考链接

https://mp.weixin.qq.com/s/cbiTd8xTX3YCVFmFFb7UGw

本周模型

Sakana AI推出首个AI科学家，已经发了10篇论文

8月13日，日本AI公司Sakana AI联合牛津大学、不列颠哥伦比亚大学的研究员宣布，推出一款名为AI Scientist的综合AI系统，可用于自动化科学研究和开放式发现。目前，AI Scientist已经生成了10篇完整的学术论文，每篇论文的成本约为15美元。该系统由以下四个部分组成：

想法生成：AI Scientist会选择一系列研究方向，并在Semantic Scholar上搜索，验证这些想法是否是新颖的。

实验迭代：AI Scientist将运行提议的实验，撰写论文所需的信息，并生成图表可视化结果，如图表和实验笔记。

撰写论文：AI Scientist用标准机器学习会议的风格编写了一份论文，并检索学术文献，自主查找相关论文引用。

自动审稿：在完成论文之后，AI能够以接近人类的准确性评估生成的论文，实现了持续的反馈循环，使AI Scientist能够迭代地改进其研究成果。

Sakana AI成立于2023年7月，创始人之一是来自Google的Transformer作者之一Llion Jones。该公司称其名字sakana源自日语单词さかな(sa-ka-na)，意思是鱼，旨在反映鱼群聚集在一起并按照简单规则形成一个连贯实体的想法。目前该公司已经陆续推出四款日语专用的生成式AI。

不久前的6月，Sakana AI刚完成了约1.43亿美元的融资，投资方包括Lux Capital、NEA、Khosla Ventures等，投后估值约11.42亿美元，成为目前唯一一家日本AI独角兽公司。

参考链接

https://sakana.ai/ai-scientist-jp/

Google DeepMind训练的机器人在乒乓球比赛中与人类选手有来有回

8月9日，Google DeepMind旗下研究团队在康奈尔大学管理的电子预印本平台arXiv上发布文章，展示了一个AI智能体驱动的乒乓球机器人，能够与人类业余选手打个有来有回。

Google DeepMind研究团队把让机器人公司ABB开发的工业机器人手臂IRB 1100装上一款3D打印的球拍，再结合自研的定制软件训练AI智能体，让机器人手臂可以挥舞球拍。这款AI智能体由乒乓球技能库和筛选最有效技能的高级控制器组成，研究团队汇集了乒乓球状态的数据集，包括位置、旋转和速度，再由高级控制器根据当前的比赛数据提取数据库中的数据。

研究团队使用了两个部分开发AI智能体。研究团队搜集了少量人类选手的比赛数据作为初始任务条件，再借助计算机构建模拟环境，在模型环境中通过强化学习训练AI智能体，让其掌握击球技巧。然后，研究团队再让AI智能体驱动真实世界中的机器人手臂与人类选手比赛，获取新的数据微调。在与人类选手比赛时，研究团队设置了一对摄像头跟踪乒乓球的位置，同时通过人类选手球拍上的LED的动作捕捉系统跟踪球手的比赛风格。模拟环境的训练、真实世界的比赛形成了连续循环，帮助AI智能体持续改进击球策略。

受限于机器人手臂的局限性，这款乒乓球机器人无法发球，因而在与人类选手比赛时做了调整。这款AI智能体与29名不同能力、且没有对抗过的人类对手比赛，赢得了其中的13场。其中，这款AI机器人在与初学者的比赛中赢得了全部比赛，在与中级选手的比赛中赢得了55%的比赛，但在与高水平以及超高水平的选手比赛中全部落败。

目前，这款AI智能体面对高低球、反手以及乒乓球旋转时都存在击球缺陷。例如，当乒乓球被击打得非常快，超出AI智能体的视野（距离球桌上方六英尺以上）或非常低时，这款乒乓球机器人就很难完成击球。

参考链接

https://arxiv.org/abs/2408.03906

阿里通义开源音频语言模型Qwen2-Audio

8月14日，阿里云宣布，Qwen2系列开源家族新增音频语言模型Qwen2-Audio、新一代数学模型Qwen2-Math。其中，Qwen2-Audio是一款大型音频语言模型（LALM)，具备语音聊天和音频分析两种使用模式，声音理解能力和指令跟随能力相比前代模型Qwen-Audio都有提升。在使用时，Qwen2-Audio无需文本输入，可以直接语音问答，目前已经支持包括中文、英语、法语、意大利语、西班牙语、德语、日语，以及粤语在内的超过8种语言和方言。

阿里云在今年5月就已经发布了超过10个开源模型。在阿里云产品文档中，通义千问开源系列目前包括视觉理解模型「通义千问VL」系列、大语言模型系列（包括Qwen、Qwen2、Qwen1.5、代码模型CodeQwen1.5）以及音频模型「通义千问Audio」系列。

阿里云选择开源模型的路线，目标是吸引更多开发者。在本季度的财报电话会上，吴泳铭表示，开源模型在「开发者的广泛使用」上更占优势，当开发者更多使用阿里云的开源模型，也会在应用上线的时候优先用阿里云的AI产品。「在中国市场上我们是唯一一家提供开源模型且同时提供AI云服务的厂商。」吴泳铭表示。

参考链接

https://mp.weixin.qq.com/s/bZndjFFe4DM7tdDFt3-eRQ

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签