掘金 人工智能 05月06日 11:58
AI 线稿上色,支持颜色提示与多角色参考
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文汇总了近期涌现的多个AI模型和工具的最新进展,涵盖图像处理、语音同步、数学推理、虚拟试穿、音乐生成等多个领域。Cobra模型专注于线稿上色,支持颜色提示和多角色参考;KeySync则致力于生成高清精准的嘴型同步视频。小米开源的MiMo-7B模型系列在数学和代码推理上表现出色。此外,还有阿里巴巴的3DV-TON视频虚拟试穿技术,DeepSeek的数学证明专家Prover-V2,以及Claude的云端集成功能和MidJourney的Omni-Reference参考生成功能。Suno v4.5版本则在音乐生成时长和人声表现力上实现了显著提升。最后,Can You Run This LLM工具能够帮助用户测算不同大语言模型的显存占用情况。

🎨Cobra:一款开源线稿上色模型,亮点在于支持颜色提示和多角色参考,为线稿上色提供了更灵活的控制。

🗣️KeySync:开源嘴型同步AI模型,能够生成高清且精准的嘴型同步视频,从演示来看唇形匹配效果良好。

👗阿里巴巴3DV-TON:视频虚拟试穿模型,只需模特视频和服装照片,即可实现逼真的试穿效果,对服装细节还原度高。

🎶Suno v4.5:音乐生成工具重大升级,单次生成音乐时长提升至8分钟,支持更多音乐流派,情感语音合成效果更佳。

🧮DeepSeek-Prover-V2:专为Lean 4形式化定理证明设计的开源大模型,能够生成严谨的数学证明,适用于高中到大学水平的数学问题。

Cobra 开源 AI 上色模型:支持颜色提示与多角色参考

Cobra[1] 是一款专注于线稿上色的开源模型,其特色在于支持颜色提示(color hint)和多角色参考功能。

这里还有一个官方的在线演示[2],不过似乎已经坏了。

KeySync 开源高清嘴型同步方案

KeySync[3] 是一个开源的嘴型同步 AI 模型,能够生成高清的精准嘴型同步视频。

从官方演示视频来看,其唇形匹配效果不错,有需求的佬可以试用官方Demo[4]体验。

小米开源轻量级 MiMo-7B 模型系列

MiMo-7B[5] 是小米最新开源的小型系列模型,包含三个版本:基座模型、SFT 微调模型和 RL 强化学习模型。

官方号称在数学和代码推理任务上表现比肩 OpenAI o1-mini。

阿里巴巴达摩院 3DV-TON:视频虚拟试穿技术

阿里巴巴达摩院最新推出的 3DV-TON[6] 视频虚拟试穿模型,只需输入模特视频和服装照片,就能实现逼真的虚拟试穿效果。

该模型支持多种服装类型和复杂人体姿态,对服装褶皱、纹理等细节的还原度非常流畅。

目前只放出了演示,代码即将开源,关注我为你持续跟进。

DeepSeek 开源数学证明专家:Prover-V2 大模型

DeepSeek-Prover-V2 是 DeepSeek 节前发布的专为 Lean 4 形式化定理证明设计的开源大型语言模型。能够生成严谨、可验证的数学证明,适用于从高中到大学水平的数学问题。

目前代码和模型已经在 Hugging Face 上开源,感兴趣的佬可以去围观啦~

Claude 推出云端集成功能:一键调用 Zapier 等第三方服务

Claude 最新推出 Integrations 功能[7],可根据需求自动调用 Zapier、Asana、Linear 等第三方服务。目前该功能仅限 Max、企业版和 Team 会员使用。

此前 MCP 主要用于本地环境,这次推出的 Integrations 可以说是云端版的 MCP 了。

MidJourney 推出 Omni-Reference:参考生成

MidJourney 最新推出 Omni-Reference[8] 功能!

支持人物参考、物体参考、场景参考等多种参考模式,让 AI 生成更加精准。通过 --ow 0-1000 这个参数,你可以自由调整生成结果与参考素材的相似程度(数值越大相似度越高)。

具体完整日志和介绍可以看官方推文。

Suno v4.5 重磅升级:8 分钟长音乐生成

Suno[9] 正式发布 v4.5 版本更新,新版本支持更多音乐流派,有更好的情感语音合成,能够呈现更细腻的人声表现力。单次生成时长提升至 8 分钟。

完整更新日志可以查看官方推文哦~

Can You Run This LLM:大语言模型显存占用计算神器

「Can You Run This LLM」[10]是一个实用的 VRAM 计算工具,能测算不同大语言模型的显存占用情况。

不仅告诉你本地设备能否跑得动某个模型,还能模拟推理效果。

再也不用对着模型参数表瞎猜了,一键就知道你的显卡会不会爆显存。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI模型 开源 图像处理 语音同步 音乐生成
相关文章