开启无缝 AI 语音聊天，OpenAI 下周开始向 ChatGPT Plus 用户推出 Alpha 版 GPT-4o 语音模式

IT之家 2024年07月26日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

OpenAI 首席执行官山姆·阿尔特曼宣布，GPT-4o 的语音模式将于下周面向 ChatGPT Plus 用户开放测试，实现无缝聊天。GPT-4o 是一款多模态模型，能够处理文本、视觉和音频信息，这意味着用户可以通过语音与 AI 进行交互，并获得更自然的对话体验。此前 GPT-4o 语音模式的测试计划曾因模型需要进一步优化而推迟，现在 OpenAI 已准备好向用户发布 Alpha 版本，并表示该版本能够显著缩短语音反馈延迟，实现近乎无缝的对话体验。

😄 **GPT-4o 语音模式即将开放测试**：OpenAI 首席执行官山姆·阿尔特曼宣布，GPT-4o 的语音模式将于下周面向 ChatGPT Plus 用户开放测试，这意味着用户可以通过语音与 AI 进行交互，并获得更自然的对话体验。该模式将为用户提供更便捷、更直观的 AI 交互方式，进一步提升 ChatGPT 的用户体验。 GPT-4o 是一款多模态模型，能够处理文本、视觉和音频信息，这意味着用户可以通过语音与 AI 进行交互，并获得更自然的对话体验。该模型的训练数据包含了大量的文本、图像和音频数据，使其能够理解和生成各种形式的语言和信息。 GPT-4o 的语音模式将利用该模型强大的多模态能力，实现更自然、更流畅的对话体验。用户可以通过语音输入问题或指令，并获得 AI 的语音回复，就像与真人对话一样。

🤔 **GPT-4o 语音模式的延迟问题**：此前 GPT-4o 的语音模式测试计划曾因模型需要进一步优化而推迟，主要是由于模型的语音反馈延迟问题。GPT-3.5 模型的平均语音反馈延迟为 2.8 秒，而 GPT-4 模型的延迟为 5.4 秒，这对于语音对话来说是一个很大的挑战。 OpenAI 在过去几个月里一直在努力优化 GPT-4o 的语音模式，并表示即将推出的 Alpha 版本能够显著缩短语音反馈延迟，实现近乎无缝的对话体验。这意味着用户在使用 GPT-4o 的语音模式时，将能够获得更流畅、更自然的对话体验，就像与真人对话一样。

🚀 **GPT-4o 的未来发展方向**：OpenAI 正在不断探索 GPT-4o 的功能和局限性，并致力于将其打造成更强大的 AI 模型。GPT-4o 的语音模式只是该模型众多功能之一，未来 OpenAI 将继续探索该模型的应用场景，并将其应用于更多领域，例如自动驾驶、医疗保健和教育。 GPT-4o 的出现，标志着 AI 技术的不断进步，并为人类社会带来了新的可能性。该模型的强大能力，将为人类社会带来更多便利和创新，并将推动 AI 技术的发展迈向新的高度。

😊 **GPT-4o 的语音模式将为 ChatGPT 用户带来更便捷、更直观的 AI 交互方式，进一步提升 ChatGPT 的用户体验。**

😔 **GPT-4o 的语音模式将为 ChatGPT 用户带来更便捷、更直观的 AI 交互方式，进一步提升 ChatGPT 的用户体验。**

IT之家 7 月 26 日消息，OpenAI 首席执行官山姆・阿尔特曼（Sam Altman）今天回复网友提问，表示将于下周面向 ChatGPT Plus 用户，开放 Alpha 版本 GPT-4o 的语音模式（Voice Mode），实现无缝聊天。

IT之家今年 5 月报道，OpenAI 首席技术官穆里・穆拉蒂（Muri Murati）在演讲中表示：

在 GPT-4o 中，我们训练了跨文本、视觉和音频的端到端全新统一模型，这意味着所有输入和输出都由同一个神经网络处理。
由于 GPT-4o 是我们第一个结合所有这些模式的模型，因此我们在探索该模型的功能及其局限性方面仍处于起步阶段。

OpenAI 公司原计划今年 6 月底，邀请一小部分 ChatGPT Plus 用户测试 GPT-4o 语音模式，但官方在 6 月宣布推迟，表示需要更多时间打磨该模型，提高该模型检测和拒绝某些内容的能力。

根据此前曝光的信息，GPT-3.5 模型的平均语音反馈延迟为 2.8 秒，而 GPT-4 模型的延迟为 5.4 秒，因此在语音交流方面不太优秀，而即将推出的 GPT-4o 可以极大地缩短延迟时间，近乎无缝对话。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签