Key Points
本周应用与模型
● xAI大模型Grok-2上线,支持文生图;
● 昆仑万维发布全球首个AI流媒体音乐平台Melodio,想听什么歌AI生成;
● 讯飞智文2.0正式上线,强化PPT生成能力;
● Sakana AI推出首个AI科学家,已经发了10篇论文;
● Google DeepMind训练的机器人在乒乓球比赛中与人类选手有来有回;
● 阿里通义开源音频语言模型Qwen2-Audio。
本周应用
xAI大模型Grok-2上线,支持文生图
8月15日,xAI宣布推出Grok-2和Grok-2 mini测试版,在聊天、编码和推理能力上有所提升。两款模型目前可供社交平台X上的Premium和Premium+付费用户使用。两款模型还融合了图像模型FLUX.1,所以支持文生图功能。据用户反馈,该产品的人为限制较少,例如它可以直接创建政治人物图片。在回答问题时,Grok-2还会搜索并结合X的用户发布的内容来回复用户的问题。
xAI通过一系列学术基准评估Grok-2模型,这些基准包括推理、阅读理解、数学、科学和编码。从模型测评的结果来看,Grok-2和Grok-2mini都比之前的Grok-1.5模型有了显著改进。
参考链接
https://x.ai/blog/grok-2
昆仑万维发布全球首个AI流媒体音乐平台Melodio,想听什么歌自己生成
8月14日,昆仑万维发布全球首个AI流媒体音乐平台Melodio。该平台在APP和网页端均可使用,用户根据自己的心情、场景等输入Prompt(提示词)后,Melodio能够立即生成并持续播放相应风格的定制化音乐,并且允许用户随时修改输入文案、查询歌词、保存和分享音乐片段。从试用体验看,Melodio能够持续稳定生成特定风格歌曲的AI音乐平台,用户在音乐生成时,能够持续输出曲风、曲调、速度、和弦、配器相似的特定风格歌曲。
当天,昆仑万维同步推出AI音乐商用创作平台Mureka。用户进入Mureka的Create页面即可开始创作音乐,创作流程包括输入歌名和歌词、添加参考音乐、选择音乐的风格和情绪。歌曲创作完成后,用户还能按需延长当前乐曲,或重新生成不满意的段落。在Mureka创作歌曲将消耗用户付费积分,用户能获得音乐创作证明,并申请在Mureka歌曲商店中展示、出售。用户在平台出售歌曲的收益,Mureka会按既定比例抽佣。
据悉,Melodio与Mureka均搭载昆仑万维自研DiT架构AI音乐大模型Skymusic 2.0,通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成,支持6分钟的44100Hz采样率双声道立体声歌曲,支持500字以上的歌词输入。
昆仑万维成立于2008年,目前旗下业务覆盖AGI与AIGC、信息分发、元宇宙、社交娱乐及游戏等多个领域。公司秉持「AllinAGI与AIGC」战略,致力于实现通用人工智能,目前全球平均月活跃用户近4亿,海外收入占比达86%。
参考链接
https://mp.weixin.qq.com/s/HQHpUL5rFmAJLxlnEoU-Ow
讯飞智文2.0正式上线,强化PPT生成能力
8月12日,科大讯飞宣布旗下智能文档产品——讯飞智文2.0正式上线。该应用依托讯飞星火V4.0大模型,支持PPT一键生成——用户输入PPT主题或上传文本、文档,讯飞智文2.0即可生成PPT。
该应用实现了PPT文本生成大模型、AI PPT编排创作引擎、AI PPT在线编辑模组三大技术升级。
首先,在文本生成方面,与上一版本相比,讯飞智文一方面对用户输入主题具备更强大的理解能力,允许联网搜索,自动抓取实时资讯;另一方面对长文本的内容理解、抽取和总结能力进一步强化,其「文本创建」功能支持12000字输入。
第二,讯飞智文2.0搭载了全新的AI PPT编排创作引擎,能够根据内容的实际丰富度自由调整PPT的框架结构,还能够基于星火V4.0的多模态能力定制配图。
第三,讯飞智文2.0拥有更灵活的PPT在线编辑模组,允许用户对生成PPT的字体、配色、特效、图表等做个性化编辑。
据悉,讯飞星火V4.0于今年6月27日发布,基于全国首个国产万卡算力集群「飞星一号」训练,对标GPT4-Turbo,在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面实现超越。
参考链接
https://mp.weixin.qq.com/s/cbiTd8xTX3YCVFmFFb7UGw
本周模型
Sakana AI推出首个AI科学家,已经发了10篇论文
8月13日,日本AI公司Sakana AI联合牛津大学、不列颠哥伦比亚大学的研究员宣布,推出一款名为AI Scientist的综合AI系统,可用于自动化科学研究和开放式发现。目前,AI Scientist已经生成了10篇完整的学术论文,每篇论文的成本约为15美元。该系统由以下四个部分组成:
想法生成:AI Scientist会选择一系列研究方向,并在Semantic Scholar上搜索,验证这些想法是否是新颖的。
实验迭代:AI Scientist将运行提议的实验,撰写论文所需的信息,并生成图表可视化结果,如图表和实验笔记。
撰写论文:AI Scientist用标准机器学习会议的风格编写了一份论文,并检索学术文献,自主查找相关论文引用。
自动审稿:在完成论文之后,AI能够以接近人类的准确性评估生成的论文,实现了持续的反馈循环,使AI Scientist能够迭代地改进其研究成果。
Sakana AI成立于2023年7月,创始人之一是来自Google的Transformer作者之一Llion Jones。该公司称其名字sakana源自日语单词さかな(sa-ka-na),意思是鱼,旨在反映鱼群聚集在一起并按照简单规则形成一个连贯实体的想法。目前该公司已经陆续推出四款日语专用的生成式AI。
不久前的6月,Sakana AI刚完成了约1.43亿美元的融资,投资方包括Lux Capital、NEA、Khosla Ventures等,投后估值约11.42亿美元,成为目前唯一一家日本AI独角兽公司。
参考链接
https://sakana.ai/ai-scientist-jp/
Google DeepMind训练的机器人在乒乓球比赛中与人类选手有来有回
8月9日,Google DeepMind旗下研究团队在康奈尔大学管理的电子预印本平台arXiv上发布文章,展示了一个AI智能体驱动的乒乓球机器人,能够与人类业余选手打个有来有回。
Google DeepMind研究团队把让机器人公司ABB开发的工业机器人手臂IRB 1100装上一款3D打印的球拍,再结合自研的定制软件训练AI智能体,让机器人手臂可以挥舞球拍。这款AI智能体由乒乓球技能库和筛选最有效技能的高级控制器组成,研究团队汇集了乒乓球状态的数据集,包括位置、旋转和速度,再由高级控制器根据当前的比赛数据提取数据库中的数据。
研究团队使用了两个部分开发AI智能体。研究团队搜集了少量人类选手的比赛数据作为初始任务条件,再借助计算机构建模拟环境,在模型环境中通过强化学习训练AI智能体,让其掌握击球技巧。然后,研究团队再让AI智能体驱动真实世界中的机器人手臂与人类选手比赛,获取新的数据微调。在与人类选手比赛时,研究团队设置了一对摄像头跟踪乒乓球的位置,同时通过人类选手球拍上的LED的动作捕捉系统跟踪球手的比赛风格。模拟环境的训练、真实世界的比赛形成了连续循环,帮助AI智能体持续改进击球策略。
受限于机器人手臂的局限性,这款乒乓球机器人无法发球,因而在与人类选手比赛时做了调整。这款AI智能体与29名不同能力、且没有对抗过的人类对手比赛,赢得了其中的13场。其中,这款AI机器人在与初学者的比赛中赢得了全部比赛,在与中级选手的比赛中赢得了55%的比赛,但在与高水平以及超高水平的选手比赛中全部落败。
目前,这款AI智能体面对高低球、反手以及乒乓球旋转时都存在击球缺陷。例如,当乒乓球被击打得非常快,超出AI智能体的视野(距离球桌上方六英尺以上)或非常低时,这款乒乓球机器人就很难完成击球。
参考链接
https://arxiv.org/abs/2408.03906
阿里通义开源音频语言模型Qwen2-Audio
8月14日,阿里云宣布,Qwen2系列开源家族新增音频语言模型Qwen2-Audio、新一代数学模型Qwen2-Math。其中,Qwen2-Audio是一款大型音频语言模型(LALM),具备语音聊天和音频分析两种使用模式,声音理解能力和指令跟随能力相比前代模型Qwen-Audio都有提升。在使用时,Qwen2-Audio无需文本输入,可以直接语音问答,目前已经支持包括中文、英语、法语、意大利语、西班牙语、德语、日语,以及粤语在内的超过8种语言和方言。
阿里云在今年5月就已经发布了超过10个开源模型。在阿里云产品文档中,通义千问开源系列目前包括视觉理解模型「通义千问VL」系列、大语言模型系列(包括Qwen、Qwen2、Qwen1.5、代码模型CodeQwen1.5)以及音频模型「通义千问Audio」系列。
阿里云选择开源模型的路线,目标是吸引更多开发者。在本季度的财报电话会上,吴泳铭表示,开源模型在「开发者的广泛使用」上更占优势,当开发者更多使用阿里云的开源模型,也会在应用上线的时候优先用阿里云的AI产品。「在中国市场上我们是唯一一家提供开源模型且同时提供AI云服务的厂商。」吴泳铭表示。
参考链接
https://mp.weixin.qq.com/s/bZndjFFe4DM7tdDFt3-eRQ