这还是我认识的百度吗？Ernie 4.5开放23款大模型性能比肩OpenAI O1

掘金人工智能前天 18:23

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

近期，国内科技巨头百度、字节跳动和阿里巴巴在人工智能领域动作频频。百度发布了23款大模型，包括LLM和VLM两大系列，其中LLM版本性能超越DeepSeek v3和Qwen 235B，VLM版本可与OpenAI O1相媲美，且均开放商业用途。字节跳动开源了XVerse模型，主打多主体图像生成中的身份一致性。阿里巴巴则发布了Qwen-TTS语音合成模型，支持多种中文方言和双语发音。这些举措都展示了中国在人工智能领域的快速发展和技术创新。

🚀 百度发布23款大模型，涵盖LLM和VLM两大系列。LLM版本性能超越DeepSeek v3和Qwen 235B，VLM版本可与OpenAI O1相媲美。所有模型均基于Apache 2.0许可，完全开放商业用途，模型参数范围从0.3B到424B不等，满足不同应用场景需求。

🎨 字节跳动开源XVerse模型，专注于多主体图像生成。该模型在多主体图像生成中实现了身份一致性，能够稳定保持多个角色的身份特征，并支持高度自定义的姿势、风格和灯光调节。代码和模型已在GitHub上开源。

🗣️ 阿里巴巴推出Qwen-TTS语音合成模型，支持多种中文方言和双语发音。该模型支持北京话、上海话和四川话三种中文方言，以及7种专业级双语发音人声。目前，开发者需通过API调用该模型，具体接口文档和计费标准可参考阿里云官方说明。

百度开放23款大模型：Ernie 4.5性能比肩OpenAI O1

Ernie 4.5[1]重磅发布 23 款开放权重大模型，包括 VLM 和 LLM 两大系列。

从官方数据显示，LLM版本超越DeepSeek v3和Qwen 235B，而VLM版本则可与OpenAI O1相媲美。所有模型均基于Apache 2.0许可，完全开放商业用途。

此次发布的模型参数范围从0.3B到424B不等，覆盖了各种应用场景需求。佬们可以在在Hugging Face[2]下载这些模型。

先不谈模型性能，这还是我认识的百度吗

字节跳动 XVerse 开源：多主体身份一致图像生成模型

字节跳动最新开源XVerse 模型[3]，实现了多主体图像生成中身份一致性。

该模型不仅能保持多个角色身份特征稳定，还支持高度自定义的姿势、风格和灯光调节。

目前代码和模型已经开源，佬们可以在 github 上查看

阿里通义 Qwen-TTS 发布：支持 3 种中文方言 + 7 种双语发音

阿里通义最新发布 Qwen-TTS[4] 语音合成模型，目前支持三种特色中文方言：北京话、上海话和四川话。更提供 7 种专业级双语发音人声：Cherry、Ethan、Chelsie、Serena、Dylan、Jada 和 Sunny。

不过略显遗憾的是，官方暂时没有开源计划，开发者需要通过 API[5] 进行调用，具体接口文档和计费标准可以参考阿里云官方说明。

百度开放23款大模型：Ernie 4.5性能比肩OpenAI O1

字节跳动 XVerse 开源：多主体身份一致图像生成模型

阿里通义 Qwen-TTS 发布：支持 3 种中文方言 + 7 种双语发音

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签