原创 小茸茸 2024-12-09 09:38 重庆
MEMO:开源数字人头项目,超越 Hallo2 的唇形同步效果;NegToMe:反向 IpAdapter,提升生图多样性与版权规避;OpenAI Sora 演示;Meta 发布 Llama 3.3 70B:支持 128K 上下文与多语言增强
MEMO:开源数字人头项目,超越 Hallo2 的唇形同步效果
MEMO[1] 是一个开源的数字人头项目,能够通过参考音频和人物肖像生成嘴型匹配的视频。
它支持输入各种风格的肖像,无论是唱歌、说唱还是日常对话,都能完美匹配。此外,MEMO 还支持多语言、各种表情以及不同的头部姿势,其唇形同步效果甚至优于 Hallo2。
NegToMe:反向 IpAdapter,提升生图多样性与版权规避
NegToMe[2] 技术支持将图片直接作为生图模型的负面提示,可用于提高生图的多样性和增强美感和细节,同时还能避免特定风格的干扰,有效规避版权问题。
如果说 IpAdapter 是用来增强一致性的,那么 NegToMe 就像是它的反向操作,专门用来减少与原图的相关性,特别适合用于版权规避等方向。
OpenAI Sora 视频生成模型又一次演示
OpenAI 创意专家 Chad Nelson 在 Content London 的独家演讲中,再次展示了Sora 视频生成模型[3]的强大能力。
该模型能够生成长达 1 分钟的视频,支持文生视频、图生视频和视频生视频等多种模式。
Grok 2 + Aurora:新一代生图模型灰度测试中
Grok 现在推出了一个新的生图模型 “Grok 2 + Aurora (beta)”,代号为 “grok-2a”,目前正在进行灰度测试。
据推友们测试,其效果与 Flux 相当,尤其擅长生成照片,几乎可以准确地生成所有名人的图像,甚至包括国旗和大厂 Logo。
哦对,Grok Flux 现在对免费用户开放,每两小时可以生成 10 条内容。
Meta 发布 Llama 3.3 70B:支持 128K 上下文与多语言增强
Meta 正式发布了Llama 3.3 70B[4],这款模型支持 128K 的上下文窗口,具备多语言能力,并且增强了工具调用功能。
与 Llama 3.1 70B 相比,其性能有了显著提升,部分基准测试结果甚至可与 Llama 405B 媲美。此外,这将是最后一个 Llama 3 版本,下次发布就是 Llama 4 了,大家拭目以待吧。
❝如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注、点赞、在看、收藏、分享 五连警告,这对我真的很重要!
Reference
[1]
MEMO 项目官网: https://memoavatar.github.io/
[2]NegToMe 官网: https://negtome.github.io/
[3][4]Llama 3.3 70B 模型: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct