index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
魔搭社区DiffSynth-Studio团队推出ImagePulse数据集项目,旨在为下一代图像理解与生成模型构建关键数据基础。该项目聚焦于图像编辑、超分扩图、风格迁移、人脸保持四大核心能力,开源了相关数据集及生成脚本,鼓励开发者共同参与,推动图像生成技术的发展。
🖼️ **修改、添加、移除:** ImagePulse 数据集提供了修改、添加或移除图像特定区域物体的能力。例如,可以移除图像中的胡须和胡子,将白衬衫改为蓝色高领毛衣,并移除牛奶玻璃杯,或者进行反向操作。
🔍 **放大、缩小:** 数据集支持对图像中的区域进行聚焦放大,以训练模型的超分辨率和扩图能力。编辑指令包括放大以聚焦在发带上,或缩小以显示动漫女孩的完整视图。
🎨 **风格迁移:** 该数据集能够在保留图像结构的前提下更换图像风格,例如将图像转换为具有鲜艳色彩和自信表情的卡通风格,或转换为具有严肃表情和微妙光线的写实肖像。
👤 **人脸保持:** 允许在保证人脸特征不变的情况下,对任务动作、神态等进行随机修改。例如,添加夜间街道场景和散景灯光,或移除这些元素。
2025-04-21 16:00 浙江
覆盖 物体修改/超分扩图/风格迁移/人脸保持 四大核心能力,可自行运行数据集生成脚本,生成更多训练数据

GPT-4o 展现出的突破性图像生成能力已引发广泛关注。然而开源模型要实现同等能力仍需持续探索。虽然当前开源图像数据集的训练效果尚难以对标 GPT-4o,但当我们将 GPT-4o 的图像生成能力分解为“图像风格迁移”、“图像局部编辑”等原子化能力时,开源模型已具备这些原子能力。基于此,魔搭社区 DiffSynth-Studio 团队正式启动 ImagePulse(图律脉动)数据集建设项目,构建原子能力数据集,致力于为下一代图像理解与生成模型构建关键的数据基础。
开源项目链接:
https://github.com/modelscope/ImagePulse
目前,ImagePulse 开源了四个原子能力数据集,以及对应的数据集构建脚本。
对图像中的特定区域中的物体进行修改、添加、移除,用于训练模型的图像编辑能力。
数据集链接:https://www.modelscope.cn/datasets/DiffSynth-Studio/ImagePulse-ChangeAddRemove
图律脉动数据集-修改、添加、移除图1 | 
|
图2 | 
|
编辑区域 | 
|
编辑指令 | Remove the mustache and beard, change the white shirt to a blue turtleneck sweater, and remove the glass of milk. |
反向编辑指令 | Add a mustache and beard, change the blue turtleneck sweater to a white shirt, and add a glass of milk. |
对图像中的区域进行聚焦放大,用于训练模型的超分辨率和扩图能力。
图律脉动数据集-放大、缩小图1 | 
|
图2 | 
|
放大区域 | 
|
编辑指令 | Zoom in to focus on the headband. |
反向编辑指令 | Zoom out to show the full view of the anime girl. |
在保留图像结构的前提下更换图像的风格,用于训练模型的风格迁移能力。
图律脉动数据集-风格迁移图1 | 
|
图2 | 
|
编辑指令 | transform the image into a cartoon style with vibrant colors and a confident expression. |
反向编辑指令 | transform the image into a realistic portrait with a serious expression and subtle lighting. |
在保证人脸特征不变的情况下对任务动作、神态等进行随机修改,用于训练模型的人脸保持能力。
图律脉动数据集-人脸保持图1 | 
|
图2 | 
|
编辑指令 | Add a nighttime street scene with bokeh lights in the background. |
反向编辑指令 | Remove the nighttime street scene and bokeh lights from the background. |
用户可自行运行数据集生成脚本,生成更多训练数据,我们也期待开源社区的开发者们能够共同参与到 ImagePulse 数据集的建设中,一起构建下一代图像生成模型。
python change_add_remove.py \
--target_dir "data/dataset" \
--cache_dir "data/cache" \
--dashscope_api_key "sk-xxxxxxxxxxxxxxxx" \
--qwenvl_model_id "qwen-vl-max" \
--modelscope_access_token "xxxxxxxxxxxxxxx" \
--modelscope_dataset_id "DiffSynth-Studio/ImagePulse-ChangeAddRemove" \
--num_data 1000000 \
--max_num_files_per_folder 1000
-target_dir: 数据集存储路径
-cache_dir: 缓存路径
-dashscope_api_key: 百炼API Key,调用百炼 API 时需填入
-qwenvl_model_id: 百炼上 Qwen-VL 模型的 ID,调用百炼 API 时需填入
-modelscope_access_token: 魔搭社区访问令牌,上传数据集到魔搭社区时需填入
-modelscope_dataset_id: 魔搭社区数据集 ID,上传数据集到魔搭社区时需填入
-num_data: 数据样本总量
-max_num_files_per_folder: 每个打包文件中的文件数量
ImagePulse 是基于众多开源技术实现的数据集建设项目,包括来自诸多开源模型和数据集的支持:
阅读原文
跳转微信打开