2025-05-21 11:45 广东
谷歌 CEO:在Google IO 2025上,我们分享了数十年的人工智能研究如今已成现实。从对搜索的彻底重塑到Agent模式、Veo 3以及更多,Gemini时代将是迄今为止最令人兴奋的AI时代。大会的亮点也都是AI、AI还是AI...
最新的Gemini 2.5 Flash在几乎所有维度上都更胜一筹:推理、多模态、代码、长上下文。
借助深度思考模式,Gemini 2.5 Pro也在不断改进。
AI模式正在向美国所有用户推出。它对搜索进行了彻底的重塑,具备更高级的推理能力,因此您可以提出更长、更复杂的查询。
Veo 3是我们最先进的视频生成模型,具备原生音频生成功能,令人惊叹不已。
谷歌会议中的实时语音翻译功能可匹配您的语调和语速,能够跨语言进行流畅的对话。
在Geminiapp中的Agent模式可以帮助您在互联网上更高效地完成更多任务
借助Gmail中的个性化智能回复功能,可以授权Gemini从的谷歌应用中提取详细信息,并以用户的口吻进行书写。
Google Beam利用一种新的视频模型将二维视频流转化为逼真的三维体验——几乎完美的头部追踪,精度可达毫米级,每秒60帧,全部实时完成。
世界比以往任何时候都更快地采用人AI。去年,我们在产品和API中每月处理的token数量为9.7万亿。如今,这一数字已达到480万亿。这是一年内的50倍增长。
除了上述的一些亮点,还开源了一系列模型:medgemma、gemma-3n
Gemma 3n模型专为在低资源设备上高效执行而设计。它们能够处理多模态输入,包括文本、图像、视频和音频输入,并生成文本输出,指令调整型变体的权重是公开的。这些模型是使用超过140种口语的数据进行训练的。
MedGemma ,这是一个用于医学文本和图像理解的开放式多模态模型。该模型基于 Gemma 3 构建,具有可微调、轻量级等特点,专为在云端或本地运行的放射学分析或病历摘要等应用而设计。
https://blog.google/technology/developers/google-io-2025-collection/
https://x.com/sundarpichai/status/1924909370497995010
https://huggingface.co/google
推荐阅读 欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。