超越 Hallo2 的开源数字人头 MEMO；版权规避，提升生图多样性；OpenAI Sora 演示；新一代生图模型灰度测试中

原创小茸茸 2024-12-09 09:38 重庆

MEMO：开源数字人头项目，超越 Hallo2 的唇形同步效果；NegToMe：反向 IpAdapter，提升生图多样性与版权规避；OpenAI Sora 演示；Meta 发布 Llama 3.3 70B：支持 128K 上下文与多语言增强

MEMO^[1] 是一个开源的数字人头项目，能够通过参考音频和人物肖像生成嘴型匹配的视频。

它支持输入各种风格的肖像，无论是唱歌、说唱还是日常对话，都能完美匹配。此外，MEMO 还支持多语言、各种表情以及不同的头部姿势，其唇形同步效果甚至优于 Hallo2。

NegToMe^[2] 技术支持将图片直接作为生图模型的负面提示，可用于提高生图的多样性和增强美感和细节，同时还能避免特定风格的干扰，有效规避版权问题。

如果说 IpAdapter 是用来增强一致性的，那么 NegToMe 就像是它的反向操作，专门用来减少与原图的相关性，特别适合用于版权规避等方向。

OpenAI 创意专家 Chad Nelson 在 Content London 的独家演讲中，再次展示了Sora 视频生成模型^[3]的强大能力。

该模型能够生成长达 1 分钟的视频，支持文生视频、图生视频和视频生视频等多种模式。

Grok 现在推出了一个新的生图模型 “Grok 2 + Aurora (beta)”，代号为 “grok-2a”，目前正在进行灰度测试。

据推友们测试，其效果与 Flux 相当，尤其擅长生成照片，几乎可以准确地生成所有名人的图像，甚至包括国旗和大厂 Logo。

哦对，Grok Flux 现在对免费用户开放，每两小时可以生成 10 条内容。

Meta 正式发布了Llama 3.3 70B^[4]，这款模型支持 128K 的上下文窗口，具备多语言能力，并且增强了工具调用功能。

与 Llama 3.1 70B 相比，其性能有了显著提升，部分基准测试结果甚至可与 Llama 405B 媲美。此外，这将是最后一个 Llama 3 版本，下次发布就是 Llama 4 了，大家拭目以待吧。

❝
如果你喜欢《一觉醒来 AI 界发生了什么》系列的话，请关注、点赞、在看、收藏、分享五连警告，这对我真的很重要！

Reference

[1]

[2]

[3]

[4]

Fish AI Reader