魔搭ModelScope社区 04月21日 22:07
ImagePulse图律脉动数据集开源发布:解码GPT-4o级图像生成能力,四大原子数据集+自动生成工具开放
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

魔搭社区DiffSynth-Studio团队推出ImagePulse数据集项目,旨在为下一代图像理解与生成模型构建关键数据基础。该项目聚焦于图像编辑、超分扩图、风格迁移、人脸保持四大核心能力,开源了相关数据集及生成脚本,鼓励开发者共同参与,推动图像生成技术的发展。

🖼️ **修改、添加、移除:** ImagePulse 数据集提供了修改、添加或移除图像特定区域物体的能力。例如,可以移除图像中的胡须和胡子,将白衬衫改为蓝色高领毛衣,并移除牛奶玻璃杯,或者进行反向操作。

🔍 **放大、缩小:** 数据集支持对图像中的区域进行聚焦放大,以训练模型的超分辨率和扩图能力。编辑指令包括放大以聚焦在发带上,或缩小以显示动漫女孩的完整视图。

🎨 **风格迁移:** 该数据集能够在保留图像结构的前提下更换图像风格,例如将图像转换为具有鲜艳色彩和自信表情的卡通风格,或转换为具有严肃表情和微妙光线的写实肖像。

👤 **人脸保持:** 允许在保证人脸特征不变的情况下,对任务动作、神态等进行随机修改。例如,添加夜间街道场景和散景灯光,或移除这些元素。

2025-04-21 16:00 浙江

覆盖 物体修改/超分扩图/风格迁移/人脸保持 四大核心能力,可自行运行数据集生成脚本,生成更多训练数据

01

引言



GPT-4o 展现出的突破性图像生成能力已引发广泛关注。然而开源模型要实现同等能力仍需持续探索。虽然当前开源图像数据集的训练效果尚难以对标 GPT-4o,但当我们将 GPT-4o 的图像生成能力分解为“图像风格迁移”、“图像局部编辑”等原子化能力时,开源模型已具备这些原子能力。基于此,魔搭社区 DiffSynth-Studio 团队正式启动 ImagePulse(图律脉动)数据集建设项目,构建原子能力数据集,致力于为下一代图像理解与生成模型构建关键的数据基础。


开源项目链接:

https://github.com/modelscope/ImagePulse


目前,ImagePulse 开源了四个原子能力数据集,以及对应的数据集构建脚本。


02

原子能力数据集



1、修改、添加、移除



对图像中的特定区域中的物体进行修改、添加、移除,用于训练模型的图像编辑能力。


数据集链接:
https://www.modelscope.cn/datasets/DiffSynth-Studio/ImagePulse-ChangeAddRemove


图律脉动数据集-修改、添加、移除

图1

图2

编辑区域

编辑指令

Remove the mustache and beard, change the white shirt to a blue turtleneck sweater, and remove the glass of milk.

反向编辑指令

Add a mustache and beard, change the blue turtleneck sweater to a white shirt, and add a glass of milk.


2、放大、缩小



对图像中的区域进行聚焦放大,用于训练模型的超分辨率和扩图能力。

图律脉动数据集-放大、缩小

图1

图2

放大区域

编辑指令

Zoom in to focus on the headband.

反向编辑指令

Zoom out to show the full view of the anime girl.


3、风格迁移



在保留图像结构的前提下更换图像的风格,用于训练模型的风格迁移能力。

图律脉动数据集-风格迁移

图1

图2

编辑指令

transform the image into a cartoon style with vibrant colors and a confident expression.

反向编辑指令

transform the image into a realistic portrait with a serious expression and subtle lighting.


4、人脸保持



在保证人脸特征不变的情况下对任务动作、神态等进行随机修改,用于训练模型的人脸保持能力。


图律脉动数据集-人脸保持

图1

图2

编辑指令

Add a nighttime street scene with bokeh lights in the background.

反向编辑指令

Remove the nighttime street scene and bokeh lights from the background.


03

运行数据集生成



用户可自行运行数据集生成脚本,生成更多训练数据,我们也期待开源社区的开发者们能够共同参与到 ImagePulse 数据集的建设中,一起构建下一代图像生成模型。

    git clone https://github.com/modelscope/ImagePulse.gitcd ImagePulsepip install -r requirements.txt

      python change_add_remove.py \  --target_dir "data/dataset" \  --cache_dir "data/cache" \  --dashscope_api_key "sk-xxxxxxxxxxxxxxxx" \  --qwenvl_model_id "qwen-vl-max" \  --modelscope_access_token "xxxxxxxxxxxxxxx" \  --modelscope_dataset_id "DiffSynth-Studio/ImagePulse-ChangeAddRemove" \  --num_data 1000000 \  --max_num_files_per_folder 1000


      -target_dir: 数据集存储路径
      -cache_dir: 缓存路径
      -dashscope_api_key: 百炼API Key,调用百炼 API 时需填入
      -qwenvl_model_id: 百炼上 Qwen-VL 模型的 ID,调用百炼 API 时需填入
      -modelscope_access_token: 魔搭社区访问令牌,上传数据集到魔搭社区时需填入
      -modelscope_dataset_id: 魔搭社区数据集 ID,上传数据集到魔搭社区时需填入
      -num_data: 数据样本总量
      -max_num_files_per_folder: 每个打包文件中的文件数量


      04

      致谢



      ImagePulse 是基于众多开源技术实现的数据集建设项目,包括来自诸多开源模型和数据集的支持:


      -DiffusionDB:

      https://modelscope.cn/datasets/AI-ModelScope/diffusiondb

      -CelebA-HQ-Face:

      https://modelscope.cn/datasets/AI-ModelScope/celeb-a-hq_training_untransformed_faces

      -FLUX:

      https://modelscope.cn/models/black-forest-labs/FLUX.1-dev

      -SDXL:

      https://modelscope.cn/models/AI-ModelScope/stable-diffusion-xl-base-1.0

      -IP-Adapter:

      https://modelscope.cn/models/AI-ModelScope/IP-Adapter

      -IP-Adapter-FLUX:

      https://modelscope.cn/models/InstantX/FLUX.1-dev-IP-Adapter

      -Qwen-VL:

      https://modelscope.cn/models/Qwen/Qwen2.5-VL-72B-Instruct

      -Inpaint-ControlNet:

      https://modelscope.cn/models/alimama-creative/FLUX.1-dev-Controlnet-Inpainting-Beta

      -Upscaler-ControlNet:

      https://modelscope.cn/models/jasperai/Flux.1-dev-Controlnet-Upscaler

      -Union-ControlNet:

      https://modelscope.cn/models/AI-ModelScope/controlnet-union-sdxl-1.0-promax

      -InfiniteYou:

      https://modelscope.cn/models/ByteDance/InfiniteYou


      欢迎点击阅读原文, 跳转GitHub为项目点⭐~




      👇点击关注ModelScope公众号获取
      更多技术信息~



      阅读原文

      跳转微信打开

      Fish AI Reader

      Fish AI Reader

      AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

      FishAI

      FishAI

      鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

      联系邮箱 441953276@qq.com

      相关标签

      ImagePulse 图像生成 数据集 开源
      相关文章