PaperAgent 03月24日
0.35秒OCR整页文档,比Qwen2.5 VL高出10%的文档转换多模态模型!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

SmolDocling是一款由Docling团队和IBM Research联合推出的多模态图文到文本模型,专注于高效的文档转换。该模型在A100 GPU上表现出色,平均每页处理仅需0.35秒,且参数量仅为256M,比Qwen2.5 VL(7B)更高效。SmolDocling具备多种功能特性,包括高效标记DocTags、光学字符识别(OCR)、布局和定位、代码、公式、图表和表格识别,以及图形分类、标题对应和列表分组等。它能够处理整个页面,实现全面的文档转换,并与Docling无缝集成。

🏷️ **DocTags高效标记**:SmolDocling引入DocTags,这是一种与DoclingDocuments完全兼容的文档表示方式,实现高效且简洁的文档表示。

🔍 **光学字符识别(OCR)**:该模型具备从图像中准确提取文本的能力,能够将文档图像转化为可编辑的文本。

📐 **布局和定位**:SmolDocling保留文档结构和文档元素的边界框,保证了文档内容的完整性和排版的一致性。

💻 **代码识别**:SmolDocling能够检测并格式化代码块,包括缩进,方便用户阅读和使用代码。

📊 **图表识别**:模型可以提取并解释图表数据,方便用户理解图表所表达的信息,并进行数据分析。

📑 **表格识别**:SmolDocling支持结构化表格提取,包括列标题和行标题,确保表格数据的准确性和可用性。

📄 **全页转换**:SmolDocling能够处理整个页面,实现全面的文档转换,涵盖所有页面元素,包括代码、公式、表格、图表等。

2025-03-24 11:22 湖北

SmolDocling是一种多模态的图文到文本模型,专为高效的文档转换而设计,目前冲到huggingface热榜2th。

SmolDocling由Docling团队,IBM Research联合推出,其在A100 GPU上平均每页仅需0.35秒,256M参数比Qwen2.5 VL(7B)更高效!

SmolDocling功能特性:

🏷️ DocTags高效标记 —— 引入DocTags,这是一种与DoclingDocuments完全兼容的高效且简洁的文档表示方式。

🔍 光学字符识别(OCR) —— 从图像中准确提取文本。

📐 布局和定位 —— 保留文档结构和文档元素的边界框。

💻 代码识别 —— 检测并格式化代码块,包括缩进。

🔢 公式识别 —— 识别并处理数学表达式。

📊 图表识别 —— 提取并解释图表数据。

📑 表格识别 —— 支持结构化表格提取,包括列标题和行标题。

🖼️ 图形分类 —— 区分图形和图形元素。

📝 标题对应 —— 将标题链接到相关图像和图形。

📜 列表分组 —— 正确组织和结构化列表元素。

📄 全页转换 —— 处理整个页面,实现全面的文档转换,涵盖所有页面元素(代码、公式、表格、图表等)。

🔲 带边界框的OCR —— 使用边界框进行OCR区域识别。

📂 通用文档处理 —— 针对科学和非科学文档进行了训练。

🔄 无缝集成Docling —— 导入Docling并以多种格式导出。

https://hf-mirror.com/ds4sd/SmolDocling-256M-previewhttps://arxiv.org/pdf/2503.11576SmolDoclingAn ultra-compact vision-language model for end-to-end multi-modal document conversion

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SmolDocling 文档转换 多模态模型 OCR 图文转换
相关文章