微软亚洲研究院前首席研究经理谭旭已于今年 8 月加入大模型创业公司月之暗面,主要负责研发端到端语音模型。月之暗面早在去年 10 月就已开始多模态研究,目前约有 10 人团队研发视频模型,为确保产品差异性,发布计划仍在推迟。谭旭在微软研究院期间,主要研究方向为生成式 AI、语音/音频/视频内容生成,其多项成果已应用在 Azure、Bing 等产品与服务中。他加入月之暗面后,可能旨在帮助该公司打造类似 GPT-4o 的语音体验。GPT-4o 采用端到端语音技术,具备更低延时、可随时打断等特性,相比传统的 ASR+LLM+TTS 方案,可以压缩机器响应时间,并改善“幻觉”问题。
😁 **谭旭加入月之暗面,负责研发端到端语音模型**:谭旭于今年 8 月加入大模型创业公司月之暗面,主要负责研发端到端语音模型。他此前在微软亚洲研究院担任首席研究经理,研究方向为生成式 AI、语音/音频/视频内容生成,并取得了多项成果,这些成果已应用在 Azure、Bing 等产品与服务中。
😊 **月之暗面多模态研究进展:**月之暗面早在去年 10 月就已开始多模态研究,目前约有 10 人团队研发视频模型。为了确保产品更具差异性,其对外发布计划仍在推迟。
🤔 **端到端语音技术优势:**相比传统的 ASR+LLM+TTS 方案,端到端语音技术可以压缩机器响应时间,并改善“幻觉”问题。它省去了“语音转文字再转语音”的中间过程,实现了更自然的语音交互体验。
🤩 **GPT-4o 的语音体验:**OpenAI 今年 5 月发布的多模态大模型 GPT-4o 基于端到端语音技术,具备更低延时、可随时打断等特性。随后,OpenAI 于 9 月 25 日面向 ChatGPT Plus 付费用户推送了高级语音功能。
😥 **端到端语音技术的挑战:**虽然端到端语音技术具有诸多优势,但其研发难度也相对较高。月之暗面需要克服技术上的挑战,才能打造出与 GPT-4o 媲美的语音体验。
IT之家 10 月 23 日消息,据“晚点 Auto”昨晚报道,微软亚洲研究院前首席研究经理谭旭于 8 月加入大模型创业公司月之暗面,主要负责研发端到端语音模型。
报道称,月之暗面的整个多模态研究早在去年 10 月就已开始。接近该公司人士称,目前正有 10 人左右的团队在研发视频模型,为确保产品更具差异性,对外发布计划仍在推迟。
资料显示,谭旭在离开微软研究院前担任首席研究经理,方向是生成式 AI、语音 / 音频 / 视频内容生成,论文引用量达上万次,他也曾担任 NeurIPS 等学术会议期刊的审稿人;其多项语言、语音、音乐、视频生成成果已应用在 Azure、Bing 等微软的产品与服务中。
谭旭加入月之暗面后的主要目标之一,可能即是帮助月之暗面打造“类似 GPT-4o”的语音体验。
IT之家注:OpenAI 今年 5 月发布多模态大模型 GPT-4o,基于端到端语音技术打造,具备更低延时、可随时打断等特性。随后,OpenAI 于 9 月 25 日面向 ChatGPT Plus 付费用户推送了高级语音功能。
此前,主流的语音方案是 ASR(自动语音识别)+LLM(大语言模型)+TTS(语音合成):输入端识别语音、转化成文本;大模型处理内容生成新文本;文本合成为语音、最终输出。
但上述方案的不足在于机器响应时间较长、人类无法随时打断,与人类的自然聊天状态存在差距。相比之下,端到端省去了“语音转文字再转语音”的中间过程,可以压缩机器响应时间,人类也可随时打断机器。同时,端到端还可帮助改善“幻觉”:用户可立即打断输出并给出新的提示词。