掘金 人工智能 06月12日 09:56
语音独角兽 ElevenLabs 创始人:人性中的不完美,恰是人愿意互动的关键;秘塔「今天学点啥」:解析复杂内容语音讲解丨日报
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期RTE开发者日报聚焦前沿技术与创新产品。OpenAI发布o3-pro模型,苹果推出新语言基座模型,中山大学等机构发布开源多功能语音驱动视频生成工具。同时,秘塔AI推出学习工具“今天学点啥”,Heynds发布AI写作和语音助手桌面应用。此外,ElevenLabs创始人分享语音AI发展观点。

🚀 OpenAI发布o3-pro模型,在数学、科学、编程等领域表现更强,支持200K上下文窗口和100K输出,并支持工具调用,目前已向Pro和Team用户开放。

🍎 苹果推出新一代语言基座模型,支持15种语言,为开发者提供端侧AI模型接入框架,降低内存占用并提高推理速度,增强推理能力和图像理解功能。

💡 秘塔AI推出“今天学点啥”学习工具,支持语音讲解和原文对照模式,可自定义学习主题和讲课风格,并一键导出PPT和逐字稿,提高知识摄取效率。

🗣️ ElevenLabs创始人认为语音是人与技术交互最自然高效的接口,强调人性化特征在语音合成中的重要性,并展望语音Agent的未来发展。

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@赵怡岭、@鲍勃

01 有话题的技术

1、OpenAI o3-pro 正式发布,基于 o3 所打造,拥有更强的数学、科学、编程等领域的表现

6 月 11 日凌晨,OpenAI 正式发布 o3-pro 推理模型,基于 o3 所打造,拥有更强的数学、科学、编程等领域的表现。性能表现上:

据介绍,o3-pro 与 o3 系列一样拥有 200K 的上下文窗口和 100K 的输出。

与 o3 一样,o3-pro 也可调用工具,从而支持搜索、分析文件、视觉推理、使用 Python 等。值得一提的是,o3-pro 支持工具访问,因此响应速度相较于 o1-pro 要更慢。

目前,o3-pro 已向 Pro 和 Team 用户提供,取代 o1-pro;企业版和教育版用户将在下周获得使用权限。

价格方面,o3-pro 输入为 20 美元/百万 token,输出 80 美元/百万 token;而 OpenAI CEO Sam Altman 昨晚宣布,o3 降价 80%——因此 o3 价格来到了输出 2 美元/百万 token、输入 8 美元/百万 token。(@APPSO)

2、Let Them Talk: 开源多功能语音驱动视频生成工具

由中山大学、美团等共同发布的多人对话视频工具「Let Them Talk」 具备多功能性,能够创造出真实对话、唱歌以及交互控制的卡通视频。

它支持单人和多人视频生成,用户可以通过提示词直接操控虚拟角色的行为,表现出良好的泛化性能。此工具灵活地提供了 480P 和 720P 的输出分辨率,同时支持最长 15 秒的视频生成。项目已开源,包括权重和推理代码,技术报告及项目页面供研究与开发使用。

相关链接:

github.com/MeiGen-AI/M… (@果比 AI)

3、苹果推出新语言基座模型,支持 15 种语言和多种智能功能

苹果在 WWDC 大会上推出了新一代语言基座模型,专为增强 Apple Intelligence 功能设计。

「基础模型框架」(Foundation Models Framwork)是苹果为开发者提供的端侧 AI 模型接入框架。使用它,苹果开发者将可以轻松地为自己的 app 接入端侧大语言模型,且无需支付 token 成本。

新模型包括一个约 3B 参数的紧凑型设备端模型和一个高效的服务器端混合专家模型,支持 15 种语言和多种智能功能。开发者只需几行代码即可接入 AI 推理功能。

这些模型在效率和性能上进行了优化,设备端模型降低了内存占用并提高了推理速度,服务器端模型则实现了更高的精度和可扩展性。苹果还通过改进的训练方案和多模态自适应,增强了推理能力和图像理解功能。

基础模型是苹果智能的核心,去年仅用于苹果自家产品和功能使用;而从今天开始,苹果把基础模型开放给开发者,任何第三方应用都可以直接利用这些端侧的基础模型,来实现基于 AI 的功能,为用户带来崭新的体验。

比如现场展示的「Kahoot!」,一个教育类产品,可以用端侧模型生成针对用户定制化的一套题目;

又或者 Alltrails,一款海外徒步玩家必备的产品,即使在深山险境完全无网的情景下,也能为用户提供必要的协助。

相关链接:

www.apple.com/newsroom/20…

相关链接:

machinelearning.apple.com/research/ap…

相关链接:

techcrunch.com/2025/06/09/… (@果比 AI、@APPSO)

02 有亮点的产品

1、秘塔 AI 推出「今天学点啥」产品,可以解析复杂内容并提供语音讲解,还支持原文对照模式

完整版:metaso.cn/s/Z06lCCR

「今天学点啥」是秘塔 AI 推出的一款学习工具,它能把枯燥的学习资料变成生动有趣的互动课程。该工具不仅能解析复杂内容并提供语音讲解,还支持原文对照模式,可一键导出编辑版 PPT 和逐字稿;适用于自学新知识、职场阅读、学术文献解读和教学课件制作等场景,能大幅提高日常知识摄入效率。

它的亮点功能:

点击右上角,还能开启原文对照模式,每讲一句中文,能同步对照原文。还能直接导出可编辑的 PPT 以及逐字稿。下载出来的 PPT 可以根据自己的需求做出调整。

体验网址:

metaso.cn/study?s=stu…

2、Heynds :一款 AI 写作和语音助手桌面应用程序,支持 Mac 和 Windows

Heynds 是一款 AI 写作和语音助手桌面应用程序,支持 Mac 和 Windows ,旨在显著加速用户的写作流程。

Heynds 可以在 Mac 或 Windows 桌面上的任何应用中通用——包括邮件客户端、Notion 到 Slack,甚至代码编辑器等。用户可以用语音输入后使用 AI 对文本编辑、润色,还支持翻译成 100 多种语言,或生成新内容等操作。

体验链接:

www.heynds.com/zh

(@Product Hunt)

03 有态度的观点

1、AI 语音独角兽 11Labs 创始人:语音是人类与技术交互最自然、最高效的接口

ElevenLabs 是一家 2022 年由前谷歌机器学习工程师 Piotr Dabkowski 与前 Palantir 部署策略师 Mati Staniszewski 共同创立的软件公司,专注运用深度学习开发自然逼真的语音合成软件。ElevenLabs 发展迅猛,2025 年 1 月完成 1.8 亿美元 C 轮融资,估值达 33 亿美元。其推出的语音转文本模型 Scribe v1 支持 99 种语言,准确性领先。

本次访谈首发于 2025 年 5 月 30 日 Stripe 频道。

Mati Staniszewski 在访谈中提到「我们一直有个坚定的信念:语音是人类与技术交互最自然、最高效的接口,也是人与设备之间最直观的沟通方式。」

他还强调,「我们很多语音生成工作,正是通过加入这些不完美的『人性化特征』,让合成声音显得更加真实和有情感,这也成为 ElevenLabs 的声音技术与众不同之处。当然,并不是所有场景都适合这种风格。但总体而言,『人性』中的不完美,恰恰是人愿意互动的关键。」

「未来的语音 Agent 会具备上下文感知能力,能够理解你为什么打电话来,并帮助你顺畅地完成后续操作——无论是预约、账单问题、退款申请,整个流程都能变得迅速而顺滑。最初你可能只是想『赶紧搞定』,但它的价值会延伸得更远,比如:它可以帮助你理解一个产品的核心功能,教你怎么用,并让你真正用出价值来。」

最后他提到,在我们构建 ElevenLabs 的技术时,我们不是为了技术而做技术,而是希望通过技术把故事传达出去,让我们触达的不同群体都能理解并参与进来。让人们觉得他们也在这段故事之中。(@Z potentials、@腾讯研究院)

🎤 关于 Elevenlabs 两个联创如何合作打造语音 AI 独角兽,可以阅读我们翻译整理的深度访谈:ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

更多 Voice Agent 学习笔记:

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 苹果 语音AI RTE 开发者日报
相关文章