原创 小茸茸 2025-04-10 09:34 重庆
谷歌推出 A2A 协议:实现跨生态智能体互联;xAI 正式推出 Grok-3 API 系列,含标准版和 mini 版;OmniSVG:多模态矢量图生成模型;Orpheus TTS 和 Nova Sonic 语音模型
谷歌推出 A2A 协议:实现跨生态智能体互联
Agent2Agent(A2A)[1]是谷歌最新发布的开放协议,该协议弥补 MCP 协议,实现不同生态系统中的智能体(Agent)之间的无缝通信与协作。
从 GitHub 上发布的草案[2]来看,谷歌这次野心不小,试图为 AI 智能体互联制定行业标准。
A2A 开放协议官网: https://google.github.io/A2A/#/
A2A 协议草案: https://github.com/google/A2A
xAI 正式推出 Grok-3 API 系列,含标准版和 mini 版
xAI 现已公开发布 Grok-3 API,包括 Grok-3 和 Grok-3 mini 两个系列,每个系列都提供了 fast 版本。具体定价如下:
比起 OpenAI 的 GPT-4o 和 GPT-4o mini,xAI 的定价要略高一些。更多详细可以看xAI 官方技术文档[3]。
xAI Grok-3 官方技术文档: https://docs.x.ai/docs/models
OmniSVG:多模态矢量图生成模型
OmniSVG[4] 是一个基于视觉语言模型(VLMs)的端到端多模态 SVG 生成系统。能够生成复杂的 SVG 矢量图形结构,支持文本到 SVG、图像到 SVG 以及角色参考到 SVG 。
目前代码和模型权重还没开源,只开放了数据集,最近非常值得期待的一个模型。
OmniSVG官网: https://omnisvg.github.io/
阿里百炼推出国内首个 MCP 服务市场
阿里百炼平台[5]正式推出国内首个 MCP 服务市场。支持个人和企业用户一键部署 MCP 服务,大幅降低了使用门槛。
之前我就觉得MCP的 stdio 的门槛对非开发者门槛太高,要么需要 node 环境要么需要 py 环境,现在可以试试了。
阿里云百炼MCP服务平台: https://bailian.console.aliyun.com/?tab=mcp
Orpheus TTS 和 Nova Sonic 语音模型
Orpheus TTS[6] 和 Nova Sonic[7] 是最近发布两个语音模型。
Orpheus TTS 是一个支持多语言的开源文本转语音模型,支持商用,不过中文效果一般。
亚马逊推出的 Nova Sonic 是一个原生多模态模型,可以直接语音到语音转换,仅支持 API 调用
(没错我就是偷懒把两个放一起写了,反正都是语音模型嘛~😉)
Orpheus TTS 开源项目页: https://huggingface.co/collections/canopylabs/orpheus-multilingual-research-release-67f5894cd16794db163786ba
Nova Sonic 技术公告: https://www.aboutamazon.com/news/innovation-at-amazon/nova-sonic-voice-speech-foundation-model
❝如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注、点赞、在看、收藏、分享 五连警告,这对我真的很重要!