Mistral發表文件OCR API 支援PDF、圖片、影音也看得懂數學

AI & Big Data 03月11日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

法國AI新創公司Mistral AI推出全新光學字元辨識API——Mistral OCR，旨在加速文件數位化進程。該API不僅能精準辨識文字，還能理解影音、圖片、表格、數學方程式以及複雜版型，例如科學論文中的圖表和公式。Mistral OCR支援多種輸入格式，包括文字、圖片、PDF等，並能與RAG系統結合處理多模態文件。其卓越的性能在數學、多語、表格和掃描內容理解方面均優於Google、Azure等競爭對手，速度更是業界領先，單節點每分鐘可處理2000頁。應用場景廣泛，涵蓋科學研究、歷史文化保存、客服效率提升以及AI預處理等。

💡Mistral OCR是法國AI新創公司Mistral AI推出的光學字元辨識（OCR）API，旨在加速文件數位化，效能超越Gemini 1.5、GPT-4o，能夠理解文件的各種元素，包括影音、圖片、表格、文字、數學方程式或進階版型如LaTex格式。

📄Mistral OCR支援文字、圖片、PDF以及圖文交錯的文件輸入，並從中擷取內容，特別適合結合檢索增強生成（RAG）系統來處理多模態文件，支援文件為提示（document as prompt）的處理，能從文件擷取特定資訊並套用格式。

💰Mistral OCR透過API mistral-ocr-latest開放，定價為1美元/1000頁，批次推論任務則1美元可處理近2000頁，目前已在la Platforme上向開發人員開放，未來將推向Mistral AI雲端或第三方推論服務平臺，並允許部分客戶在本地部署環境執行。

法國AI新創公司Mistral AI本周發表光學字元辨識（OCR）API，名為Mistral OCR，以加速文件數位化作業，並號稱效能超越Gemini 1.5、GPT-4o。

Mistral AI指出，Mistral OCR不同其他模型，能以超越以往的精確性和認知能力來理解文件的每一種元素，包括影音、圖片、表格、文字、數學方程式或進階版型如LaTex格式。因此即使是包含圖表、方程式和數字、圖形的科學論文這類豐富文件，Mistral OCR也能深切理解。

在輸入端，Mistral API可支援文字、圖片、PDF，以及圖文交錯的文件，並從中擷取出內容。因此Mistral OCR很適合結合檢索增強生成（retrieval-augmented generation，RAG）系統來處理多模態文件（像是簡報或複雜的PDF）。它還支援文件為提示（document as prompt）的處理，讓用戶可以從文件擷取出特定資訊，再套用格式加入到結構化輸出中，例如JSON。用戶可將擷取出的輸出灌注到下游函式呼叫，開發代理人。

Mistral AI也比較了新的Mistral OCR與Google Document AI、Azure OCR、Gemini 1.5、GPT-4o，顯示不論是在理解數學、多語、表格及掃瞄內容上都優於競爭對手。此外，Mistral OCR號稱速度業界最快，單一節點每分鐘可處理2,000頁。

可能的應用場景包括科學研究數位化、歷史文化保存、提升客服效率、以及將紙本文件預處理以供AI處理等。

Mistral OCR已是Mistral聊天機器人Le Chat理解文件任務的預設模型，現在則透過API mistral-ocr-latest開放，代價為1美元1,000頁，如果是批次推論任務，則1元可處理近2,000頁。

現在Mistral API可在la Platforme上向開發人員開放。Mistral AI計畫很快會將之推向Mistral AI的雲端或第三方推論服務夥伴平臺，以及允許部分客戶在本地部署環境上執行。圖片來源／Mistral AI

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签