OpenAI 50 倍速度提升图像生成新方法；Midjourney 图像编辑新功能；Mochi 仅需 20G 显存低成本运行方案

三花AI 2024年10月24日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

本文介绍了 AI 图像生成领域近期的一些重要进展，包括开源多模态图像生成模型 OmniGen、Midjourney 的图像编辑新功能、低显存运行方案 Mochi、跨平台计算机控制工具 agent.exe 以及 OpenAI 推出的 sCM 图像生成方法。这些进展展示了 AI 图像生成技术的不断发展，为用户提供了更多选择和可能性。

🚀 **OmniGen: 多模态输入的开源图像生成模型** OmniGen 是一款开源图像生成模型，它能够接受多模态输入，并自动识别输入图像中的特征，例如使用 XML 标记提示词，可以实现文生图、风格迁移、角色一致性、图像编辑和图生图等功能。该模型提供了在线试用，用户可以体验其强大的功能。

🎨 **Midjourney 推出图像编辑新功能** Midjourney 近期发布了两个新的图像编辑功能：用户现在可以使用 Midjourney 编辑 AI 生成的图像，也可以编辑自己上传的图像。该功能可以保持图片结构不变，只改变风格或重新上色。目前，这两个功能只向年度会员或已生成 10000+ 张图片的用户开放。

💡 **Mochi: 低成本运行方案** 为了降低运行 AI 模型的成本，Mochi 提供了两种低显存运行方案：ComfyUI 节点，仅需 20G 显存；genmoai-smol 的 Fork 版本，需要 24G 显存。这使得用户可以使用更低端的设备运行 AI 模型，降低了使用门槛。

💻 **agent.exe: 跨平台计算机控制** agent.exe 是一款利用 Anthropic 的 Computer use 能力的工具，它支持 Win、Mac 和 Linux 平台。该工具允许用户使用 Claude 3.5 Sonnet 实现跨平台计算机控制，例如在 Google Flights 上订票。

⚡️ **OpenAI 推出 sCM: 50 倍速度提升的图像生成新方法** OpenAI 发布了新的图像生成方法 sCM，该方法不仅实现了与扩散模型相当的质量，而且仅需 2 次采样步骤。在 A100 GPU 上，生成单张图像仅需 0.11 秒，实现了约 50 倍的速度提升。该方法在生成速度方面具有很大的潜力，为端侧生图提供了新的希望。目前，该方法只发布了论文，尚未开源。

原创小茸茸 2024-10-24 09:17 重庆

OmniGen: 多模态输入的开源图像生成模型；Midjourney 推出图像编辑新功能；Mochi：仅需 20G 显存的低成本运行方案；agent.exe：利用 Computer use 实现跨平台计算机控制；OpenAI 推出 sCM图

OmniGen: 多模态输入的开源图像生成模型

OmniGen^[1] 是一个能够接受多模态输入的开源图像生成模型，只需输入提示词，就能自动识别输入图像中的特征，就像是内置了 ControlNet、IpAdapter 等预处理模型。这个模型使用特殊的 XML 标记提示词，可以实现文生图、风格迁移、角色一致性、图像编辑和图生图。官方提供了在线使用，你们可以自己玩下在线试用^[2]。

Midjourney 推出图像编辑新功能

Midjourney^[3] 网页版刚刚发布了两个新功能：

现在不仅能编辑 AI 生成的图像，还能编辑自己上传的图像了。

保持图片结构不变，只换风格或重新上色。

虽然但是，这两功能目前只向年度会员或者已经生成了 10000+ 张图片的用户开放。

Mochi：仅需 20G 显存的低成本运行方案

我找到了两个低显存运行方案：

kijai^[4] 大佬发布的 ComfyUI 节点，仅需 20G 显存。

genmoai-smol^[5] 的 Fork 版本，需要 24G 显存。昨天还需要 4 块 H100 呢，今天已经只需一块 4090 了，显存需求大幅降低。

agent.exe：利用 Claude 3.5 Sonnet 实现跨平台计算机控制

agent.exe^[6] 是一款利用了 Anthropic 最新发布的 Computer use^[7] 能力的工具。该工具完全开源，并支持 Win、Mac 和 Linux 平台。作者在演示中展示了如何使用 agent.exe 在 Google Flights 上订票，就完美的订错了日期，哈哈哈

OpenAI 推出 sCM：50 倍速度提升的图像生成新方法

OpenAI 刚刚发布了 sCM^[8]，这是一种新的图像生成方法，它不仅实现了与扩散模型相当的质量，而且仅需 2 次采样步骤。

在 A100 GPU 上，生成单张图像仅需 0.11 秒，实现了约 50 倍的速度提升。生成速度上有非常强的潜力呀，端侧生图新的希望。可惜，目前只发布了论文，没有开源。

❝
如果你喜欢《一觉醒来 AI 界发生了什么》系列的话，请关注、点赞、在看、收藏、分享五连警告，这对我真的很重要！

Reference

[1]

OmniGen 开源图像生成模型: https://github.com/VectorSpaceLab/OmniGen

[2]

OmniGen 在线试用: https://huggingface.co/spaces/Shitao/OmniGen

[3]

Midjourney 官方状态更新: https://x.com/midjourney/status/1849213115009056919

[4]

kijai 大佬发布的 ComfyUI 节点: https://github.com/kijai/ComfyUI-MochiWrapper

[5]

genmoai-smol 的 Fork 版本: https://github.com/victorchall/genmoai-smol

[6]

agent.exe 项目主页: https://github.com/corbt/agent.exe

[7]

Anthropic 的 Computer use 能力: https://docs.anthropic.com/en/docs/build-with-claude/computer-use

[8]

sCM：OpenAI 的简化、稳定和扩展连续时间一致性模型: https://openai.com/index/simplifying-stabilizing-and-scaling-continuous-time-consistency-models/

阅读原文

跳转微信打开

OmniGen: 多模态输入的开源图像生成模型

Midjourney 推出图像编辑新功能

Mochi：仅需 20G 显存的低成本运行方案

agent.exe：利用 Claude 3.5 Sonnet 实现跨平台计算机控制

OpenAI 推出 sCM：50 倍速度提升的图像生成新方法

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签