三花AI 04月09日 18:04
多模态 AI 数字人视频生成模型;LanPaint 局部重绘技术;快手可灵 AI 上线 “快来惹毛我、万物膨胀、捏捏乐” 特效
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了多种AI领域的新成果,包括硅基智能的HeyGem、LumaAI的Ray 2、谷歌的Gemini Embedding等模型,以及一些创新技术和特效。

HeyGem是硅基智能推出的全离线数字人合成工具,前端开源,部分未开源。

LanPaint是创新的推理版局部重绘技术,在ComfyUI中使用简单。

Character - 3是Hedra开发的多模态AI数字人视频生成模型,有进步但中文口型待提升。

Ray 2是LumaAI推出的视频生成模型,速度快价格低,效果不错。

谷歌发布Gemini Embedding模型,在多语言文本嵌入基准测试中排名第一。

原创 小茸茸 2025-03-10 09:36 重庆

硅基智能推出 HeyGen 开源替代品:HeyGem;LumaAI 推出 Ray 2:速度提升 3 倍,价格降低 3 倍的视频生成模型;谷歌发布 Gemini Embedding 模型

硅基智能推出 HeyGen 开源替代品:HeyGem

HeyGem 是硅基智能推出的全离线数字人合成工具,支持通过文字和语音驱动数字人形象。提供了从安装 Docker 到启动的详细教程。

目前放出的代码只开源了前端部分[1],最核心依赖的3个 Docker 镜像并未开源。

HeyGem 前端开源代码: https://github.com/GuijiAI/HeyGem.ai

LanPaint:推理版局部重绘技术

LanPaint[2] 是一种创新的推理版局部重绘技术,它通过在去噪(denoising)前进行多次迭代“思考”,实现了更精确和自然的图像重绘效果。

在 ComfyUI 中使用 LanPaint 非常简单,只需将默认的 KSampler 替换为 LanPaint 的节点即可,有需要的佬们可以试试看。

LanPaint GitHub 项目: https://github.com/scraed/LanPaint

Hedra 推出 Character-3:多模态 AI 数字人视频生成模型

Character-3 是由 Hedra 开发的一个 AI 数字人视频生成模型。它能够同时处理多种输入类型,包括图像、文本和音频,并通过联合推理生成更高质量的视频。

这一代在头部和身体协调性方面进步不错,英文效果非常出色,但中文语音口型对齐的效果还有待提升。

佬可以在 Hedra Studio[3] 上使用 Character-3,每月免费获得 400 积分。订阅服务分为多个档次,最低档为 10 美元提供 1000 积分,最高档为 75 美元提供 11000 积分,价格还是不便宜啊。

Hedra Studio 官网: https://www.hedra.com/

LumaAI 推出 Ray 2:速度提升 3 倍,价格降低 3 倍的视频生成模型

Ray 2[4]是由 LumaAI 最新推出的一款视频生成模型,号称速度比前代快 3 倍,价格便宜 3 倍。

该模型支持生成最长 10 秒的视频片段,分辨率可达 720p 或 1080p。支持文生视频、图生视频、音频和控制能力,从官方的演示来看,效果非常不错。

价格方面,一段 5 秒 24 帧的 720p 视频需要 0.8 美元。

Ray 2 模型官网: https://lumalabs.ai/ray

谷歌发布 Gemini Embedding 模型

Gemini Embedding[5] 是谷歌最近推出的一个实验性嵌入模型(gemini-embedding-exp-03-07),通过 Gemini API 提供服务,该模型在多语言文本嵌入基准测试(MTEB)排行榜上排名第一,超越了之前的 text-embedding-004 模型。

Gemini Embedding 支持长达 8K token 的输入,能够嵌入更长的文本、代码或其他数据,输出维度为 3K,几乎是之前 Embedding 模型的四倍。

更多信息可去看官方博客

Gemini Embedding 文本模型官网: https://developers.googleblog.com/en/gemini-embedding-text-model-now-available-gemini-api

快手可灵 AI 推出全新 AI Effects:FuzzyFuzzy、MochiMochi 和 BoomBoom

可灵 AI[6] 也推出了类似 Pika 的 AI Effects,Web 和 App 现已上线 FuzzyFuzzy、MochiMochi 和 BoomBoom 三种特效。

国内版本也同步上线了,分别命名为:FuzzyFuzzy(快来惹毛我)、MochiMochi(捏捏乐)和 BoomBoom(万物膨胀)。

可灵 AI 官网: https://klingai.kuaishou.com/image-to-video/special-effects/new

如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

现在加入 AI 日报群,不会漏掉消息嗷

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

HeyGem LanPaint Character - 3 Ray 2 Gemini Embedding
相关文章