index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
复旦大学和StepFun联合推出了OmniSVG,这是一个开源的SVG生成模型,能够根据文本、图像或字符引用,逐步生成高质量的SVG图形,从简单的图标到复杂的动漫人物都能胜任。OmniSVG基于预训练的视觉语言模型Qwen-VL构建,并集成了SVG分词器,实现了多功能的SVG生成,为创意设计提供了强大的工具。相关论文和代码已在Hugging Face和GitHub上开源。
🎨 OmniSVG的核心在于其基于预训练的视觉语言模型Qwen-VL,该模型能够理解文本和图像输入。
✍️ OmniSVG支持多种生成模式,包括文本转SVG、图像转SVG和字符引用SVG,满足不同的创作需求。
🧩 OmniSVG集成了SVG分词器,将矢量图形命令编码到统一的表示空间中,从而实现高效的SVG生成。
📊 OmniSVG在MMSVG-2M数据集上进行了训练,该数据集包含了图标、插图和字符等多种类型的SVG图形,确保了模型的多样性和泛化能力。
2025-04-11 10:59 湖北

复旦&StepFun提出并将开源OmniSVG:能够逐步生成各种复杂程度的高质量 SVG——从简单的图标到复杂的动漫人物。它通过多种生成模式展现出卓越的多功能性,包括文本转 SVG、图像转 SVG 和字符引用 SVG,使其成为适用于各种创意任务的强大而灵活的解决方案。再看一个更直观的动图效果,tokens生成与SVG可视化对比:更多信息:《动手设计AI Agents:CrewAI版》、《高级RAG之36技》、新技术实战:Manus+MCP/GRPO+Agent/Lazy-GraphRAG、大模型日报/月报、最新技术热点追踪(GPT4-o/数字人/MCP/Gemini 2.5 Pro)OmniSVG 基于预先训练的视觉语言模型 Qwen-VL 构建,并集成了 SVG 分词器。该模型将文本和图像输入分词为前缀分词器,而 SVG 分词器则将矢量图形命令编码到统一的表示空间中。OmniSVG与SOTA方法比较
MMSVG-2M数据集
MMSVG-2M 数据集包含三个子集,分别为图标、插图和字符。图标、插图和部分字符子集的样本均从互联网下载。字符子集的另一部分由我们的数据生成流程生成,可为图像提示任务提供图像和 SVG 对。
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。
阅读原文
跳转微信打开