谷歌 Veo2 顶级视频生成模型；Imagen 3 艺术风格与细节渲染增强；一体化图像编辑与修复技术；OpenAI o1 API

原创小茸茸 2024-12-18 09:37 重庆

谷歌推出 Veo2：顶级视频生成模型；谷歌 Imagen 3 升级：艺术风格与细节渲染全面增强；腾讯开源 BrushEdit：一体化图像编辑与修复技术；OpenAI 推出 o1 推理模型 API，支持 WebRTC 和全新微调方法

谷歌发布了 Veo2^[1] 视频模型，支持文生视频和图生视频。

该模型能够生成分辨率高达 4K 的视频，并能根据提示词完成相机控制，如广角镜头、POV 和无人机拍摄，更好地遵循物理效果。

从官方演示来看，效果非常出色，甚至优于 Sora。目前，还需要加入 VideoFX^[2] 的候补名单才有机会体验。

谷歌的 Imagen 3^[3] 模型再次升级，这次更新不仅支持更多艺术风格，还能更精准地遵循提示词，渲染出更加丰富的细节和纹理。

此次更新使其成为最强生图模型，基准测试表现甚至超越了 RecraftV3。谷歌在大模型、视频生成和图像生成领域正式全面领先，直接放大招，没有 12days。

BrushEdit^[4] 是腾讯开源的一体化图像编辑和修复技术，它利用多模态大语言模型和图像修复模型，实现了自由编辑和修复。

用户可以轻松移除对象、添加对象，进行背景编辑和对象替换。效果不错，还有个在线演示^[5]可以玩一下。

OpenAI 在 12Days 活动第 9 天正式发布了 o1 推理模型的 API，支持函数调用和结构化输出。现在 Realtime API 支持 WebRTC，并且价格有所降低。此外，还推出了一种全新的模型微调方法 Preference Fine-Tuning。

此外，还有价格更新和新的sdk发布，完整的细节可以看公告^[6]

❝
如果你喜欢《一觉醒来 AI 界发生了什么》系列的话，请关注、点赞、在看、收藏、分享五连警告，这对我真的很重要！

Reference

[1]

[2]

[3]

[4]

[5]

[6]

Fish AI Reader