三花AI 03月24日 10:35
从单图秒变 3D 动画人偶:阿里 LHM;字节 InfiniteYou基于FLUX模型人物一致性;开源Wan 2.1特效LoRA
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文汇总了近期 AI 领域的重要进展,包括 Roboflow 开源的实时目标检测模型 RF-DETR、阿里通义实验室推出的 LHM 技术(照片转动画)、腾讯混元 T1 模型(首个 Mamba 与 Transformer 结合的推理模型)、字节跳动的 InfiniteYou(人物一致性技术)、Remade AI 开源的 Wan 2.1 特效 LoRA 集合,以及 xAI 发布 Grok-2-Image 模型 API。这些进展涵盖了目标检测、动画生成、推理模型、人物一致性、特效生成和图像生成等多个方面,为 AI 技术的应用提供了新的可能性。

🚀 Roboflow 开源了实时目标检测模型 RF-DETR,提供 RF-DETR-base 和 RF-DETR-large 两个版本。RF-DETR-base 参数量 29M,适合资源受限场景;RF-DETR-large 参数量 128M,精度更高。该模型在某些场景下精度优于 YOLO 模型。

🎬 阿里通义实验室推出了 LHM 技术,可以在几秒内将单人照片转换为可动画化的 3D 模型,支持真人及二次元角色,并开源了代码。

💡 腾讯发布了混元 T1 模型,这是首个将 Mamba 和 Transformer 结合的推理模型。该模型提供 API,价格相对较低,每百万输入 tokens 1 元,每百万输出 tokens 4 元。

👤 字节跳动发布了 InfiniteYou,基于 FLUX 模型,能够在保持人物一致性的同时生成多样化图片,并提供了 Demo。

✨ Remade AI 再次开源 Wan 2.1 特效 LoRA 集合,包括变身赛亚人、机械人等多样化特效。

🖼️ xAI 发布 Grok-2-Image 模型 API,单图生成费用为 $0.07,接口风格与 OpenAI 类似。

原创 小茸茸 2025-03-24 09:34 重庆

Roboflow 开源实时目标检测模型 RF-DETRRF;腾讯混元 T1:首个 Mamba 与 Transformer 结合的推理模型;xAI 发布 Grok-2-Image 模型 API

Roboflow 开源实时目标检测模型 RF-DETR

RF-DETR[1] 是由 Roboflow 开发的实时目标检测模型,基于 Apache 2.0 开源许可。该模型提供了两个版本:RF-DETR-base 和 RF-DETR-large。RF-DETR-base 参数量为 29M,适合资源受限的场景;而 RF-DETR-large 参数量为 128M,拥有更高的精度。

总的来说这是一个能和 YOLO 模型扳扳手腕的检测模型,部分场景检测速度不如YOLO,但在精确度上要更好一些。佬们有需要的可以看看。

RF-DETR 官方博客: https://blog.roboflow.com/rf-detr/

阿里通义实验室 LHM 技术:快速将照片转换为动画

LHM[2]是阿里通义实验室推出的能在几秒内将单人照片转换成可动画化的 3D 模型。不仅支持真人,还能处理二次元角色,生成的人物模型能够按照参考视频中的动作进行复刻。

又一个类 AnimateAnyone 的技术,不过代码这次开源了,有需要的佬可以看看。

LHM 官方页面: https://lingtengqiu.github.io/LHM/

腾讯混元 T1:首个 Mamba 与 Transformer 结合的推理模型

腾讯近日发布了混元 T1 模型[3],这是业内首个将 Mamba 和 Transformer 结合的推理模型。

在数学和编程方面比DeepSeek R1要差点,其他指标基本持平或略超R1。

这个模型没有开源,不过提供了 API ,而且价格相当便宜,每百万输入 tokens 1 元,每百万输出 tokens 4 元,约为 DeepSeek R1 标准时段价格的四分之一。

混元 T1 模型官网: https://llm.hunyuan.tencent.com/#/blog/hy-t1

字节 InfiniteYou:基于 FLUX 模型的人物一致性技术

字节 InfiniteYou[4] 是基于 FLUX 模型的身份保留模型,能够在保持人物一致性的同时,根据提示词生成多样化的图片。

个人感觉一致性方面相比主流方法 FLUX.1-dev IP-Adapter 和 PuLID-FLUX 的话还是要差点。

官方也提供了Demo[5],佬们可以自己试试。

InfiniteYou 官网: https://bytedance.github.io/InfiniteYou/
InfiniteYou 官方 Demo: https://huggingface.co/spaces/ByteDance/InfiniteYou-FLUX

Remade AI 再次开源 Wan 2.1 特效 LoRA 集合

继上次 Remade AI 开源了 8 款 Wan 2.1 特效 LoRA 之后,他们又开源了一系列新的特效 LoRA,包括变身赛亚人、机械人等多样化的特效。

佬们可以直接关注这个 LoRA 集合[6],包含了其所有特效 LoRA。

Remade AI 的 Wan 2.1 特效 LoRA 集合: https://huggingface.co/collections/Remade-AI/wan21-14b-480p-i2v-loras-67d0e26f08092436b585919b

xAI 发布 Grok-2-Image 模型 API

xAI 正式推出了 Grok-2-Image 模型 API,该接口风格与 OpenAI 类似,单图生成费用为 $0.07。

有需要的佬可以去看官方接口文档[7]

xAI Grok-2-Image 官方接口文档: https://docs.x.ai/docs/guides/image-generations

如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

现在加入 AI 日报群,不会漏掉消息嗷


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RF-DETR LHM 混元 T1 InfiniteYou Grok-2-Image AI
相关文章