多模态 AI 数字人视频生成模型；LanPaint 局部重绘技术；快手可灵 AI 上线 “快来惹毛我、万物膨胀、捏捏乐” 特效

原创小茸茸 2025-03-10 09:36 重庆

硅基智能推出 HeyGen 开源替代品：HeyGem；LumaAI 推出 Ray 2：速度提升 3 倍，价格降低 3 倍的视频生成模型；谷歌发布 Gemini Embedding 模型

HeyGem 是硅基智能推出的全离线数字人合成工具，支持通过文字和语音驱动数字人形象。提供了从安装 Docker 到启动的详细教程。

目前放出的代码只开源了前端部分^[1]，最核心依赖的3个 Docker 镜像并未开源。

HeyGem 前端开源代码: https://github.com/GuijiAI/HeyGem.ai

LanPaint^[2] 是一种创新的推理版局部重绘技术，它通过在去噪（denoising）前进行多次迭代“思考”，实现了更精确和自然的图像重绘效果。

在 ComfyUI 中使用 LanPaint 非常简单，只需将默认的 KSampler 替换为 LanPaint 的节点即可，有需要的佬们可以试试看。

LanPaint GitHub 项目: https://github.com/scraed/LanPaint

Character-3 是由 Hedra 开发的一个 AI 数字人视频生成模型。它能够同时处理多种输入类型，包括图像、文本和音频，并通过联合推理生成更高质量的视频。

这一代在头部和身体协调性方面进步不错，英文效果非常出色，但中文语音口型对齐的效果还有待提升。

佬可以在 Hedra Studio^[3] 上使用 Character-3，每月免费获得 400 积分。订阅服务分为多个档次，最低档为 10 美元提供 1000 积分，最高档为 75 美元提供 11000 积分，价格还是不便宜啊。

Hedra Studio 官网: https://www.hedra.com/

Ray 2^[4]是由 LumaAI 最新推出的一款视频生成模型，号称速度比前代快 3 倍，价格便宜 3 倍。

该模型支持生成最长 10 秒的视频片段，分辨率可达 720p 或 1080p。支持文生视频、图生视频、音频和控制能力，从官方的演示来看，效果非常不错。

价格方面，一段 5 秒 24 帧的 720p 视频需要 0.8 美元。

Ray 2 模型官网: https://lumalabs.ai/ray

Gemini Embedding^[5] 是谷歌最近推出的一个实验性嵌入模型（gemini-embedding-exp-03-07），通过 Gemini API 提供服务，该模型在多语言文本嵌入基准测试（MTEB）排行榜上排名第一，超越了之前的 text-embedding-004 模型。

Gemini Embedding 支持长达 8K token 的输入，能够嵌入更长的文本、代码或其他数据，输出维度为 3K，几乎是之前 Embedding 模型的四倍。

更多信息可去看官方博客

Gemini Embedding 文本模型官网: https://developers.googleblog.com/en/gemini-embedding-text-model-now-available-gemini-api

可灵 AI^[6] 也推出了类似 Pika 的 AI Effects，Web 和 App 现已上线 FuzzyFuzzy、MochiMochi 和 BoomBoom 三种特效。

国内版本也同步上线了，分别命名为：FuzzyFuzzy（快来惹毛我）、MochiMochi（捏捏乐）和 BoomBoom（万物膨胀）。

可灵 AI 官网: https://klingai.kuaishou.com/image-to-video/special-effects/new

❝
如果你喜欢《一觉醒来 AI 界发生了什么》系列的话，请关注、点赞、在看、收藏、分享五连警告，这对我真的很重要！

Fish AI Reader