AI科技评论 03月07日 20:02
欧洲「DeepSeek」发布了全世界最好的 OCR,网友:蹲蹲中国的免费开源版
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

欧洲初创公司Mistral AI发布了Mistral OCR,号称“全世界最好的OCR”,旨在整理AI难以识别的复杂文件,便于AI操作识别。尽管有用户对其定价和多语言支持提出质疑,但Mistral OCR在复杂文档解析、多语言多模态处理、基准测试表现和处理速度上都展现出优势。它采用创新性的“文档即提示”结构化输出,并提供自托管部署方案。Mistral OCR的出现,代表着一次从字符识别到场景智能的跨越,在总体准确率、数学公式识别等方面表现优异,被视为欧洲挑战OpenAI的重要力量。

🧩Mistral OCR是一款多模态API,能够识别文本中的插图或照片,并创建边界框,将图文混排的PDF文件转换为结构清晰的Markdown格式文件,可以轻松识别表格数字组合、数学公式、印地语,甚至带有水印的文字。

🚀Mistral OCR在复杂文档解析能力上表现出色,能够精准解析交错的图像、数学公式、表格以及LaTeX等高级排版格式,尤其擅长处理包含图表、图形、公式和插图的科学论文等富文本文档。

💰Mistral OCR采用轻量化架构,处理速度快,单节点每分钟可解析高达2000页文档,同时创新性地引入“文档即提示”概念,使用户能够直接使用文档作为指令,以获取更加精准和定制化的结果,并输出JSON等结构化格式。

🔒Mistral OCR提供自托管部署选项,针对数据隐私要求严格的企业或机构,确保敏感信息始终存储在本地基础设施内,满足合规性与安全性需求。

原创 郑佳美 2025-03-07 18:08 广东

继开源首个 MoE 模型后,他们又发布了千页只需 7 块钱的文件扫描 API。

继开源首个 MoE 模型后,他们又发布了千页只需 7 块钱的文件扫描 API。

作者丨郑佳美

编辑丨马晓宁

就在刚刚,那个曾经开源了首个 MoE 模型的欧洲初创公司 Mistral AI 在沉寂一段时间之后又出新活。

Mistral 团队发布了一个号称“全世界最好的 OCR”的产品 —— Mistral OCR,旨在将一些 AI 难以直接识别的粗糙且复杂的文件进行整理,便于 AI 操作识别。

帖子一经发出,评论区瞬间充满了各种夸夸言论,但在一众赞美声中,也不乏一些真正用过产品的网友的理智发言。

就比如有网友对 Mistral OCR 的产品能力表示认同,但却有点接受不了它的产品定价,觉得有点太贵,并且期待中国 AI 公司早点发布一个类似的开源版本,把价格打下来。

同时也有网友亲自上手,上传扫描了手写板的内容,但最后识别出的文字结果正确率并不是很高。

除此之外,还有被 Mistral 所宣传的“可以识别超多种语言”噱头吸引过来的网友,但使用后却失望的发现它无法识别自己所用语言。

尽管 Mistral OCR 目前还存在着一定的局限性,但它的出现确实是一次从字符识别到场景智能的跨越。


1


从图文到结构化数据的一大步

与传统的 OCR API 不同,Mistral OCR 是一款多模态 API,它不仅可以识别文本中是否嵌入了插图或照片,还会为这些图形元素创建边界框,并将它们包含在输出中。

从 Mistral AI 团队放出的 Demo 视频可以看出,Mistral OCR 能够将图文混排的 PDF 文件转换成结构清晰的 Markdown 格式文件。

例如表格+数字的 PDF 组合。

PDF 图片中数学公式的转换。

PDF 宣传图片中的印地语。

拍得并不方正的论文照片。

甚至带有水印的文字也可以轻松识别。


2


从字符识别到场景智能的一大步

除了直观的 Demo 外,Mistral AI 团队还列举了 6 点 Mistral OCR 的绝对优势:

团队还将 Mistral OCR 将 Google Document AI、Azure OCR、Gemini 系列模型以及 GPT-4o 的产品性能进行对比。

最终的结果表明,Mistral OCR 在总体准确率、数学公式识别等方面表现优异,特别是在 2503 版本中,各项指标均大幅提升,达到了新的高度。

在多语言处理方面,得出的数据更是远远优于 Google Document AI 和 Azure OCR。


3


欧洲也有自己的“DeepSeek”

Mistral AI 是一家位于法国的初创公司,凭借其 AI 助手 Le Chat 和多个基础模型,已被官方视为法国最具前途的科技公司之一,并被认为是唯一有潜力与 OpenAI 竞争的欧洲企业。

Mistral AI 的三位创始人都拥有在全球顶级科技公司中积累的丰富 AI 研究经验。首席执行官 Arthur Mensch 曾在谷歌 DeepMind 部门工作,首席技术官 Timothée Lacroix 和首席科学家 Guillaume Lample 则曾是 Meta 的核心成员。凭借着强大的技术背景,Mistral AI 的创始团队带领公司迅速发展。

值得一提的是,自 2023 年成立以来,Mistral AI 在筹集资金方面取得了显著成绩,目标是将前沿 AI 技术普及给每个人,虽然这一目标并未直接挑战 OpenAI,但它强调了公司对于 AI 开放性的坚定支持。

作为 ChatGPT 的替代品,Mistral AI 推出了聊天助手 Le Chat,并在 iOS 和 Android 上成功上线。在发布后仅两周,Le Chat 的下载量便突破了 100 万次,并一度在 iOS App Store 中登顶法国免费下载榜单。

除此之外,截至 2025 年 2 月,Mistral AI 已筹集了约 10 亿欧元(约 10.4 亿美元)的资金,其中包括几轮股权融资和部分债务融资。尤其值得注意的是,在 2023 年 6 月公司发布首批模型之前,Mistral AI 就成功完成了创纪录的 1.12 亿美元种子轮融资,成为欧洲历史上最大的一轮种子融资,当时公司估值达 2.6 亿美元。

参考链接:

https://mistral.ai/fr/news/mistral-ocr

https://x.com/MistralAI/status/1897694143180112096


更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!


公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

//


近期热门文章


为什么中国只有一个 DeepSeek?


万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025


Andrej Karpathy 最新视频盛赞 DeepSeek:R1 正在发现人类思考的逻辑并进行复现

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Mistral AI OCR 多模态 文档解析 AI
相关文章