三花AI 2024年10月21日
火爆 X 拖拽式人脸表情编辑;Meta 发布最先进媒体生成模型;bolt.new 开源 AI 全栈开发;开源 AI 编曲新体验
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了国庆假期前半段AI界的多项成果,包括开源MIDI音乐生成模型、Meta发布的Movie Gen媒体生成模型、bolt.new开源AI全栈开发工具、DepthFlow单图转2.5D视差视频工具、阿里ACE全能图片编辑模型、Inverse Painting艺术作品绘画过程生成工具、FacePoke拖拽式人脸表情编辑、PMRF人脸面部修复开源图像工具等。

🎵开源MIDI音乐生成模型:一个专门用于合成MIDI音乐的开源模型,可直接用AI生成MIDI音乐,效果不错,为音乐创作带来新体验。

🎬Meta发布Movie Gen:最先进的媒体生成模型,包括支持文本生成图像和视频的Movie Gen Video,以及支持视频配音的Movie Gen Audio,功能强大,值得期待。

💻bolt.new:一站式AI全栈开发工具,通过提示词即可编辑、运行甚至部署,支持多种全栈框架,目前处于早期测试阶段。

📽DepthFlow:能将单张图片转换为2.5D视差效果视频的工具,国庆期间发布的0.7.x版本修复了各种问题,并提供了单文件WebUI和CLI版本。

🖼阿里ACE:全能图片编辑模型,支持多种图片编辑功能,目前项目处于期货开源状态,将在10月底正式开源。

原创 小茸茸 2024-10-08 09:13 重庆

MIDI 音乐生成模型;Movie Gen媒体生成;DepthFlow单图转2.5D视差视频;阿里ACE全能图片编辑;InversePainting艺术作品绘画过程;FacePoke拖拽式人脸表情编辑;PMRF人脸面部修复开源图像工具

为了防止你们错过,这里是国庆假期前半段 AI 界发生的事情,点击直达?:OpenAI 推出 语音助手API 和 Canvas 界面;Flux 1.1 Pro发布;微软 Copilot AI 发布更新

开源 MIDI 音乐生成模型:AI 编曲新体验

midi-model[1] 是一个开源的专门用于合成 MIDI 音乐的模型。很多年前,完全没有音乐细胞的我也尝试过各种编曲软件,基本都是动次打次之后就放弃了。现在可以直接用 AI 生成 MIDI 音乐,效果不错,不知道对专业的音乐人来说这是啥水平。

Meta 发布 Movie Gen:最先进的媒体生成模型

官网[2]是由 Meta 发布的系列模型,官方宣称这是迄今为止最先进的媒体基础模型。该系列包括两个主要模型:

    Movie Gen Video:这是一个拥有 30B 参数的 transformer 模型,支持文本生成图像和视频。

    Movie Gen Audio:这是一个拥有 13B 参数的 transformer 模型,支持视频配音(文本引导),能够生成环境音、背景音乐和拟音。

尽管目前仅发布了官网[3]和 92 页的论文[4],Meta 尚未表态是否会开源,但从官网的演示来看,Movie Gen 支持多模态输入,自带角色一致性,还能通过提示词精准编辑视频,功能非常强大,值得期待。

bolt.new:开源 AI 全栈开发

bolt.new 是一个能够通过提示词即可编辑、运行甚至部署的一站式 AI 全栈开发工具,支持 Nuxt、Next 等全栈框架。

与 v0 不同,bolt 能够完全访问文件系统、Node服务器、包管理器、终端和浏览器控制台,目前还是早期测试阶段, GitHub[5]

DepthFlow:单图转 2.5D 视差视频工具

Github[6] 是一款能够将单张图片转换为 2.5D 视差效果视频的工具。国庆期间发布的 0.7.x 版本,主要修复了各种问题,并提供了单文件 WebUI 和 CLI 版本,你们可以直接在 Release 页面下载。

阿里ACE:全能图片编辑模型

阿里推出了一款名为ACE[7]的全能图片编辑模型,支持通过提示词编辑图片、风格参考、局部重绘等多种功能。目前,该项目还处于期货开源状态,官方宣称将在10月底正式开源。

Inverse Painting:艺术作品绘画过程生成工具

Inverse Painting[8] 是一款能够为任何艺术作品生成绘画过程的延时视频工具。目前还是期货开源,与之前介绍的 Paints-Undo[9] 不同,这个工具更适合艺术作品而非二次元。

FacePoke:火爆 X 拖拽式人脸表情编辑

FacePoke[10] 是一个基于 liveportrait 的开源项目,支持通过拖拽对人脸进行编辑,效果喜人。最近在 X 上非常火,可以用来配合 Runway 等视频生成工具控制人脸,挺不错的。

PMRF:专为人脸面部修复设计的开源图像修复工具

PMRF[11] 是一个开源的图像修复算法,它支持对图像进行着色、修复、降噪和超分辨率处理。官方提供了一个小工具,特别适合用于人脸面部修复。不过,亲测并非‘银弹’,可能是因为对熟人的脸辨识能力太强?你可以试试用它处理几个你最熟悉的人的脸部图像,看看效果如何。


如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

现在加入 AI 日报群,不会漏掉消息嗷

Reference

[1]

midi-model 开源项目: https://huggingface.co/spaces/skytnt/midi-composer

[2]

Movie Gen 官网: https://ai.meta.com/research/movie-gen/

[3]

Movie Gen 官网: https://ai.meta.com/research/movie-gen/

[4]

Movie Gen 研究论文: https://ai.meta.com/static-resource/movie-gen-research-paper

[5]

bolt.new GitHub 页面: https://github.com/stackblitz/bolt.new

[6]

DepthFlow 项目页面: https://github.com/BrokenSource/DepthFlow

[7]

ACE官网: https://ali-vilab.github.io/ace-page/

[8]

Inverse Painting 官网: https://inversepainting.github.io/

[9]

Paints-Undo 官网: https://sanhua.himrr.com/news/945bac6f-0d4a-4546-8797-5f6efbf090c9

[10]

FacePoke 项目官网: https://huggingface.co/spaces/jbilcke-hf/FacePoke

[11]

PMRF 官方网站: https://pmrf-ml.github.io/


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI成果 MIDI音乐 Movie Gen 图片编辑
相关文章