36kr-科技 2024年07月05日
成立半年就敢踢馆 OpenAI ,首个开源模型不输 GPT-4o,LeCun 、PyTorch 之父齐声叫好
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Kyutai 开发了一种名为 Moshi 的实时原生多模态基础 AI 模型,可以表达 70 多种情绪,以不同的风格说话,甚至模仿口音。Moshi 能够同时处理两个音频流,实现自然流畅的对话,还能理解和响应用户的情绪。该模型开源且可在个人计算机上运行,并被誉为世界上首个具有自然对话能力的 AI 助手,其功能可与 OpenAI 的 GPT-4o 和 Google Astra 相媲美。

🤔 **多模态能力:** Moshi 能够同时处理音频和文本,实现自然流畅的对话,并能理解和响应用户的情绪。它可以表达 70 多种情绪,以不同的风格说话,甚至模仿口音。

🗣️ **实时交互:** Moshi 的理论延迟仅为 160 毫秒,实际延迟在 200 到 240 毫秒之间。它能够在设备上运行,解决了隐私问题,并使 AI 在实时应用程序中更易于访问和响应。

💻 **开源且易于访问:** Kyutai 将 Moshi 模型开源,并开发了可在个人计算机上运行的较小版本,使这项技术能够被大型研究实验室以外的更广泛的用户使用。

🚀 **训练方法:** Moshi 基于 Helium 7B 模型构建,集成了文本和音频训练,针对 CUDA、Metal 和 CPU 后端进行了优化。训练过程中,Kyutai 使用了各种数据源,包括人体运动数据和 YouTube 视频,并集成了基于 Kyutai 的 Mimi 模型的高压缩语音编解码器。

🛡️ **负责任的 AI:** Kyutai 实施了识别 Moshi 生成内容的策略,包括维护生成的音频签名的数据库,并使用水印技术在音频中嵌入听不见的标记,以确保透明度和安全性。

想象一下,一个 AI 模型可以表达 70 多种情绪,以不同的风格说话,甚至令人信服地模仿口音。并且,它能够同时处理两个音频流,同时听和说。这不是科幻小说,而是 Kyutai 在语音 AI 技术上的最新突破。

只用短短 6 个月的时间,这个由 8 人组成的非营利性 AI 研究实验室从零开发出了一种名为 "Moshi "的实时原生多模态基础 AI 模型。根据 Kyutai 的说法,Moshi 是世界上首个具有自然对话能力的可公开访问 AI 助手。OpenAI 之前曾展示过 GPT-4o 的语音引擎和语音模式功能,但尚未发布。

据称,该模型具备的功能可与 OpenAI 的 GPT-4o 和 Google Astra 相媲美,但模型要小得多。“Moshi 在说话时思考。”Kyutai 首席执行官帕特里克·佩雷斯 (Patrick Pérez) 表示,Moshi 具有彻底改变人机通信的潜力。

7 月 4 日,Kyutai 在法国巴黎公开发布了 Moshi 的实验原型,用户可以在网上自由测试体验(https://moshi.chat/?queue_id=talktomoshi)。值得一提的是,Kyutai 的所有模型都是开源的。之后,该团队不仅计划发布完整模型,包括推理代码库、7B 模型、音频编解码器和优化堆栈。

图灵奖得主 Yann LeCun 分享说:“Moshi 可以听懂带有法国口音的英语。”就连 PyTorch 之父 Soumith Chintala 也向 Kyutai 表示了祝贺,并透露该团队某成员是他在 Meta 的 AI 研究团队 FAIR 的前同事。

Kyutai 团队

据悉,这家成立于 2023 年 11 月的初创团队,得到了包括法国亿万富翁 Xavier Niel 在内投资的近 3 亿欧元的支持,旨在为 AI 的开放研究做出贡献并促进生态系统发展。Kyutai 还组建了一支由知名人工智能研究人员组成的科学顾问团队——计算机科学家、2022 年麦克阿瑟“天才”奖获得者 Yejin Choi,Meta 首席 AI 科学家、ACM 图灵奖获得者 Yann LeCun 和德国马克斯·普朗克智能系统研究所研究所所长 Bernhard Schölkopf。

对话流畅又会整活, 甚至还会“抢话” 

在现场演示过程中,Kyutai 团队与 Moshi 进行互动,展示了其在各种说话风格之间无缝切换,以及在角色扮演中迅速化身的创造力。

当被要求用法国口音说话时,Moshi 朗诵了一首关于巴黎的诗;在被要求变身为一个热情洋溢的海盗时,Moshi 讲述了七大洋上的勇敢和冒险故事;Moshi 还能用一种低语的讲述神秘故事的语气,表达《黑客帝国》的电影情节。

Moshi 还能一秒化身太空助手,和对话用户一同“进入”太空之旅。并且,Moshi 的反应似乎比人类更快,经常在问题或提示被完全提出之前就做出了回答。

在发布现场的一系列演示中,Moshi 是在没有互联网连接的标准 MacBook Pro 上运行。Kyutai 还计划进一步优化移动设备的 Moshi,确保其广泛采用。这将使 Moshi 更加通用,从个人助理到便携式教育工具,可以在各种环境中使用。

有思想、有情商, 半秒内就能回复 

据介绍, Moshi 不仅仅是一个语音 AI,还是一个能够处理文本和音频的多模态模型,主要功能特点包括:

其中,Moshi 最令人印象深刻的方面之一是它能够在设备上运行。此功能解决了隐私问题,并使 AI 在实时应用程序中更易于访问和响应。用户可以与 Moshi 进行交互,而不必担心数据被发送到远程服务器。

70 亿参数提供支持, Moshi 是如何训练的? 

Moshi 因其同时处理音频和文本的能力而脱颖而出,而这种实时交互是由 Kyutai 创新的联合预训练过程提供支持。

据了解,Moshi 基于 Helium 7B 模型构建,集成了文本和音频训练,针对 CUDA、Metal 和 CPU 后端进行了优化,支持 4 位和 8 位量化。在训练方面,Kyutai 使用了各种数据源,包括人体运动数据和 YouTube 视频。

Moshi 还集成了基于 Kyutai 的 Mimi 模型的高压缩语音编解码器,可以高效处理音频信息。

训练中,Moshi 涉及一些创新的开创性技术,使其对自然语言和对话流程有了深刻的理解。

此外,Kyutai 敏锐地意识到高级语音 AI 可能被滥用于恶意目的,如网络钓鱼。为了降低这些风险,Kyutai 实施了识别 Moshi 生成内容的策略,包括维护生成的音频签名的数据库,并使用水印技术在音频中嵌入听不见的标记。

结语 

Moshi 代表了语音 AI 技术的重大飞跃。更广泛地说,Moshi 有可能彻底改变数字世界中语音的使用。例如,它的文本到语音功能在情感和多人语音互动方面非常出色。它能够传达情感、调整说话风格和进行自然对话,这将彻底改变我们与人工智能互动的方式,并开启了一个充满可能性的世界:

与此同时,Moshi 的出现隔空对 OpenAI 等主要人工智能公司提出了挑战,这些公司因安全问题而推迟发布类似的语音功能产品而受到不少用户的批评。

不过,也有 Moshi 的使用者表示,其在第一分钟左右的速度和响应速度都非常快,但对话进行的时间越长,就会变得越不连贯;并且,Moshi 明显缺乏知识,在犯了错误而受到责备时,就会惊慌失措,陷入“对不起,对不起...”的循环回复。

虽然 OpenAI 暂时还不需要担心来自 Moshi 的竞争,但确实表明,许多公司正在迎头赶上 OpenAI。就像 Sora 一样,现在 Luma Labs、Runway 等其他公司都在推出表现不弱的竞对产品挑战其模型质量和市场地位。

参考链接:

https://medium.com/@shrimangalevallabh789/moshi-voice-ai-the-advanced-voice-ai-that-feels-almost-human-d185d85da97d

https://analyticsindiamag.com/french-ai-lab-kyutai-releases-openai-gpt-4o-killer-moshi/

https://www.tomsguide.com/ai/moshi-chats-gpt-4o-advanced-voice-competitor-tried-to-argue-with-me-openai-doesnt-need-to-worry-just-yet

本文来自微信公众号“AI前线”(ID:ai-front),整理:华卫,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

语音 AI Moshi Kyutai 多模态 实时对话 开源
相关文章