三花AI 2024年12月09日
超越 Hallo2 的开源数字人头 MEMO;版权规避,提升生图多样性;OpenAI Sora 演示;新一代生图模型灰度测试中
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文简要介绍了AI领域的几项前沿技术发展。包括:MEMO开源数字人头项目,实现超越Hallo2的唇形同步效果,支持多语言和多种表情;NegToMe技术,通过反向IpAdapter提升生图多样性和规避版权;OpenAI Sora视频生成模型的最新演示,支持多种模式生成长达1分钟的视频;Grok 2 + Aurora新一代生图模型灰度测试,擅长生成照片;Meta发布Llama 3.3 70B,支持128K上下文和多语言,性能显著提升。

🎙️MEMO是一个开源数字人头项目,它能根据音频和肖像生成嘴型匹配的视频,支持多语言、多种表情和头部姿势,其唇形同步效果超越了Hallo2。

🖼️NegToMe技术可以将图片作为生图模型的负面提示,从而提高生成图像的多样性和美感,增强细节,同时避免特定风格的干扰,有效规避版权问题,与IpAdapter作用相反。

🎥OpenAI的Sora视频生成模型展示了强大的能力,支持文生视频、图生视频和视频生视频等多种模式,能生成长达1分钟的视频。

📸Grok 2 + Aurora是一个新的生图模型,目前正在灰度测试中,其效果与Flux相当,尤其擅长生成照片,几乎可以准确地生成所有名人的图像,甚至包括国旗和大厂Logo。

🦙Meta发布了Llama 3.3 70B,支持128K的上下文窗口,具备多语言能力,增强了工具调用功能,性能较Llama 3.1 70B有显著提升,部分基准测试结果可与Llama 405B媲美。

原创 小茸茸 2024-12-09 09:38 重庆

MEMO:开源数字人头项目,超越 Hallo2 的唇形同步效果;NegToMe:反向 IpAdapter,提升生图多样性与版权规避;OpenAI Sora 演示;Meta 发布 Llama 3.3 70B:支持 128K 上下文与多语言增强

MEMO:开源数字人头项目,超越 Hallo2 的唇形同步效果

MEMO[1] 是一个开源的数字人头项目,能够通过参考音频和人物肖像生成嘴型匹配的视频。

它支持输入各种风格的肖像,无论是唱歌、说唱还是日常对话,都能完美匹配。此外,MEMO 还支持多语言、各种表情以及不同的头部姿势,其唇形同步效果甚至优于 Hallo2。

NegToMe:反向 IpAdapter,提升生图多样性与版权规避

NegToMe[2] 技术支持将图片直接作为生图模型的负面提示,可用于提高生图的多样性和增强美感和细节,同时还能避免特定风格的干扰,有效规避版权问题。

如果说 IpAdapter 是用来增强一致性的,那么 NegToMe 就像是它的反向操作,专门用来减少与原图的相关性,特别适合用于版权规避等方向。

OpenAI Sora 视频生成模型又一次演示

OpenAI 创意专家 Chad Nelson 在 Content London 的独家演讲中,再次展示了Sora 视频生成模型[3]的强大能力。

该模型能够生成长达 1 分钟的视频,支持文生视频、图生视频和视频生视频等多种模式。

Grok 2 + Aurora:新一代生图模型灰度测试中

Grok 现在推出了一个新的生图模型 “Grok 2 + Aurora (beta)”,代号为 “grok-2a”,目前正在进行灰度测试。

据推友们测试,其效果与 Flux 相当,尤其擅长生成照片,几乎可以准确地生成所有名人的图像,甚至包括国旗和大厂 Logo。

哦对,Grok Flux 现在对免费用户开放,每两小时可以生成 10 条内容。

Meta 发布 Llama 3.3 70B:支持 128K 上下文与多语言增强

Meta 正式发布了Llama 3.3 70B[4],这款模型支持 128K 的上下文窗口,具备多语言能力,并且增强了工具调用功能。

与 Llama 3.1 70B 相比,其性能有了显著提升,部分基准测试结果甚至可与 Llama 405B 媲美。此外,这将是最后一个 Llama 3 版本,下次发布就是 Llama 4 了,大家拭目以待吧。


如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

现在加入 AI 日报群,不会漏掉消息嗷

Reference

[1]

MEMO 项目官网: https://memoavatar.github.io/

[2]

NegToMe 官网: https://negtome.github.io/

[3]

Sora 主题演讲: https://x.com/RuudNL/status/1865425438991945938

[4]

Llama 3.3 70B 模型: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人工智能 数字人 生图模型 视频生成 大语言模型
相关文章