Claude（最终）拥有了语音

Claude（终于）获得语音功能

2025年05月28日 | AI日报

欢迎各位人工智能爱好者

最后一个主要的人工智能坚守者正式加入了语音运动，Anthropic终于为其助手赋予了说话能力。

与Anthropic一贯的风格一样，迟到总比不到好——随着闪亮的新模型和现在全新的语音功能的推出，这家AI巨头再次展现了其强大的产品交付能力。

在今天的人工智能概述中:

Anthropic为Claude推出的新语音模式 Synthesia联合创始人的3D世界AI初创公司自动化项目会议文档记录研究：AI通过自信学习推理

阅读时间: 5分钟

最新动态

🗣️ Anthropic为Claude推出的新语音模式

概述: Anthropic刚刚宣布为其Claude移动应用推出新的语音模式，成为最后一批让用户能够与其AI助手进行自然语音对话的主要AI实验室之一。

详细信息:

该测试功能将在未来几周内向英语用户推出，并运行在Claude最新的Sonnet 4模型上。用户可以在说话和打字之间自然切换，提供五种语音个性选择，并在聊天时显示实时转录。语音模式还与Google Workspace集成，付费订阅用户可以通过语音命令让Claude访问日历、文档和Gmail。免费用户每月可获得20-30条语音消息，付费层级则有"显著更高"的使用限制。

重要性: 随着所有主要实验室现在都提供语音模式，竞争转向了执行层面——延迟、集成和底层模型质量等因素都在用户体验中发挥作用。这些能力也与Siri等老一代语音助手形成鲜明对比，显示出它们真正的落后程度。

🚀 跳过设置，直接部署代理

Postman的Agent Generator提供完整的交钥匙基础设施，无需服务器设置，使开发人员能够无摩擦地即时构建和部署AI代理。

使用Agent Generator，您可以:

即时启动代理工作流程与OpenAI、LangChain等兼容在Postman中测试、调试和部署

🌐 Synthesia联合创始人的3D世界AI初创公司

概述: Synthesia联合创始人Matthias Niessner刚刚推出了SpAItial，这是一家旨在创建能够从文本和图像生成交互式3D环境的AI系统的新初创公司。

详细信息:

演示

重要性: 虽然AI已经掌握了生成2D图像和视频，但创建连贯、具有空间意识的3D世界仍然是一个挑战。这类新型模型可以让任何人只用几句话就能创建复杂的虚拟环境——解决许多人认为是AI的下一个前沿领域。

☺️ 研究：AI通过自信学习推理

概述: 来自加州大学伯克利分校和耶鲁大学的研究人员推出了INTUITOR，这是一种AI训练方法，使语言模型能够利用内部自信信号改进其推理——无需正确答案或外部反馈。

详细信息:

INTUITOR测量AI对其生成的每个单词的自信程度，使用这种"直觉"作为学习的指南。与需要正确答案学习的传统AI训练不同，该系统在AI产生自信的响应时给予奖励。在数学问题上测试时，该方法与传统训练表现相当，但在编程任务上显示出更好的结果。AI还开始表现出类似人类的推理行为——分解复杂问题、制定计划并逐步解释其思考过程。

重要性: 正如直觉和自信在人类学习中扮演重要角色一样，这项研究表明AI在相同系统中取得了成功。这种自我导向的方法对于没有明确"正确答案"或人类专业知识有限的领域尤其有价值，使AI能够探索未知的知识领域。