原创 小茸茸 2024-10-24 09:17 重庆
OmniGen: 多模态输入的开源图像生成模型;Midjourney 推出图像编辑新功能;Mochi:仅需 20G 显存的低成本运行方案;agent.exe:利用 Computer use 实现跨平台计算机控制;OpenAI 推出 sCM图
OmniGen: 多模态输入的开源图像生成模型
OmniGen[1] 是一个能够接受多模态输入的开源图像生成模型,只需输入提示词,就能自动识别输入图像中的特征,就像是内置了 ControlNet、IpAdapter 等预处理模型。这个模型使用特殊的 XML 标记提示词,可以实现文生图、风格迁移、角色一致性、图像编辑和图生图。官方提供了在线使用,你们可以自己玩下 在线试用[2]。
Midjourney 推出图像编辑新功能
Midjourney[3] 网页版刚刚发布了两个新功能:
现在不仅能编辑 AI 生成的图像,还能编辑自己上传的图像了。
保持图片结构不变,只换风格或重新上色。
虽然但是,这两功能目前只向年度会员或者已经生成了 10000+ 张图片的用户开放。
Mochi:仅需 20G 显存的低成本运行方案
我找到了两个低显存运行方案:
kijai[4] 大佬发布的 ComfyUI 节点,仅需 20G 显存。
genmoai-smol[5] 的 Fork 版本,需要 24G 显存。昨天还需要 4 块 H100 呢,今天已经只需一块 4090 了,显存需求大幅降低。
agent.exe:利用 Claude 3.5 Sonnet 实现跨平台计算机控制
agent.exe[6] 是一款利用了 Anthropic 最新发布的 Computer use[7] 能力的工具。该工具完全开源,并支持 Win、Mac 和 Linux 平台。作者在演示中展示了如何使用 agent.exe 在 Google Flights 上订票,就完美的订错了日期,哈哈哈
OpenAI 推出 sCM:50 倍速度提升的图像生成新方法
OpenAI 刚刚发布了 sCM[8],这是一种新的图像生成方法,它不仅实现了与扩散模型相当的质量,而且仅需 2 次采样步骤。
在 A100 GPU 上,生成单张图像仅需 0.11 秒,实现了约 50 倍的速度提升。生成速度上有非常强的潜力呀,端侧生图新的希望。可惜,目前只发布了论文,没有开源。
❝如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注、点赞、在看、收藏、分享 五连警告,这对我真的很重要!
Reference
[1]
OmniGen 开源图像生成模型: https://github.com/VectorSpaceLab/OmniGen
[2]OmniGen 在线试用: https://huggingface.co/spaces/Shitao/OmniGen
[3]Midjourney 官方状态更新: https://x.com/midjourney/status/1849213115009056919
[4]kijai 大佬发布的 ComfyUI 节点: https://github.com/kijai/ComfyUI-MochiWrapper
[5]genmoai-smol 的 Fork 版本: https://github.com/victorchall/genmoai-smol
[6]agent.exe 项目主页: https://github.com/corbt/agent.exe
[7]Anthropic 的 Computer use 能力: https://docs.anthropic.com/en/docs/build-with-claude/computer-use
[8]sCM:OpenAI 的简化、稳定和扩展连续时间一致性模型: https://openai.com/index/simplifying-stabilizing-and-scaling-continuous-time-consistency-models/