我爱计算机视觉 01月13日
文绘千里江山!1000万图文数据集Git-10M和生成式基础模型Text2Earth
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了Text2Earth,一个基于扩散模型的生成式基础模型,它拥有13亿参数,并配备了包含1000万图像文本对的全球遥感数据集Git-10M。该模型支持分辨率控制、无边界场景生成和多任务能力,通过动态条件适配策略增强了在条件缺失情况下的生成能力。Text2Earth在零样本生成、场景扩展、图像编辑和跨模态生成等多个任务中展示了卓越的通用性,为遥感图像的生成和应用提供了强大的工具。

🌍Git-10M数据集:该数据集包含1000万图像文本对,覆盖全球范围内的多种地理场景,并提供从0.5m/pixel到128m/pixel的多分辨率图像,为多模态生成模型提供了丰富的数据基础。

⚙️Text2Earth模型:该模型基于扩散框架,具有13亿参数,通过变分自编码器、扩散模型和条件嵌入机制,实现了高质量遥感图像的生成,并支持分辨率控制和无边界场景生成。

💫动态条件适配策略:模型在训练和推理过程中动态调整条件,增强了在条件信息不完整情况下的生成能力,提高了模型的鲁棒性和适应性。

🎨全能任务表现:Text2Earth模型在零样本文本生成、场景扩展、图像编辑以及跨模态生成等多个任务中表现出色,展示了其强大的通用性。

2025-01-13 15:05 江苏




关注公众号,发现CV技术之美




本文来自遥感与深度学习。分享论文Text2Earth: Unlocking Text-driven Remote Sensing Image Generation with a Global-Scale Dataset and a Foundation Model,介绍了一个 1000 万图像文本对的全球遥感数据集和生成式基础模型Text2Earth。


创新点

数据

Git-10M数据

1. 数据集规模和特点

规模

多样性

分辨率范围

数据集包含从 0.5m/pixel 到 128m/pixel 的多分辨率图像:

元数据支持

每张图像都附带地理位置和分辨率信息,为生成高精度图像提供了更多上下文信息。

2. 数据来源

公开数据集

公开数据集来自现有高质量遥感图像数据集,如:

手动收集

大部分数据来自从 Google Earth 手动获取的遥感图像,补充了现有公开数据集中未覆盖的地理场景。

3. 数据处理与增强

筛选

增强

4. 文本注释

自动化注释流程

质量保证

文本统计

5. 数据分析

6. 数据集优势


方法

1. 模型架构

Text2Earth 模型基于扩散框架,核心架构包括:

2. 动态条件适配策略 (DCA)

3. 模型功能与任务


实验与分析

精度对比

FID (Frechet Inception Distance) 是一种衡量生成模型(如 GAN 或扩散模型)生成的图像质量和多样性的重要指标。

可视化展示

多地理特征的零样本图像生成

多分辨率

图像编辑

无边界场景

多模态和跨模态任务

更多图表分析可见原文。

最新 AI 进展报道
请联系:amos@52cv.net


END




欢迎加入「文生图交流群?备注:生成




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Text2Earth 遥感图像 扩散模型 多模态生成 Git-10M
相关文章