2025-03-24 11:22 湖北
SmolDocling是一种多模态的图文到文本模型,专为高效的文档转换而设计,目前冲到huggingface热榜2th。
SmolDocling由Docling团队,IBM Research联合推出,其在A100 GPU上平均每页仅需0.35秒,256M参数比Qwen2.5 VL(7B)更高效!
SmolDocling功能特性:
🏷️ DocTags高效标记 —— 引入DocTags,这是一种与DoclingDocuments完全兼容的高效且简洁的文档表示方式。
🔍 光学字符识别(OCR) —— 从图像中准确提取文本。
📐 布局和定位 —— 保留文档结构和文档元素的边界框。
💻 代码识别 —— 检测并格式化代码块,包括缩进。
🔢 公式识别 —— 识别并处理数学表达式。
📊 图表识别 —— 提取并解释图表数据。
📑 表格识别 —— 支持结构化表格提取,包括列标题和行标题。
🖼️ 图形分类 —— 区分图形和图形元素。
📝 标题对应 —— 将标题链接到相关图像和图形。
📜 列表分组 —— 正确组织和结构化列表元素。
📄 全页转换 —— 处理整个页面,实现全面的文档转换,涵盖所有页面元素(代码、公式、表格、图表等)。
🔲 带边界框的OCR —— 使用边界框进行OCR区域识别。
📂 通用文档处理 —— 针对科学和非科学文档进行了训练。
🔄 无缝集成Docling —— 导入Docling并以多种格式导出。
https://hf-mirror.com/ds4sd/SmolDocling-256M-preview
https://arxiv.org/pdf/2503.11576
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion
推荐阅读
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。