AI & Big Data 03月11日
Mistral發表文件OCR API 支援PDF、圖片、影音也看得懂數學
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

法國AI新創公司Mistral AI推出全新光學字元辨識API——Mistral OCR,旨在加速文件數位化進程。該API不僅能精準辨識文字,還能理解影音、圖片、表格、數學方程式以及複雜版型,例如科學論文中的圖表和公式。Mistral OCR支援多種輸入格式,包括文字、圖片、PDF等,並能與RAG系統結合處理多模態文件。其卓越的性能在數學、多語、表格和掃描內容理解方面均優於Google、Azure等競爭對手,速度更是業界領先,單節點每分鐘可處理2000頁。應用場景廣泛,涵蓋科學研究、歷史文化保存、客服效率提升以及AI預處理等。

💡Mistral OCR是法國AI新創公司Mistral AI推出的光學字元辨識(OCR)API,旨在加速文件數位化,效能超越Gemini 1.5、GPT-4o,能夠理解文件的各種元素,包括影音、圖片、表格、文字、數學方程式或進階版型如LaTex格式。

📄Mistral OCR支援文字、圖片、PDF以及圖文交錯的文件輸入,並從中擷取內容,特別適合結合檢索增強生成(RAG)系統來處理多模態文件,支援文件為提示(document as prompt)的處理,能從文件擷取特定資訊並套用格式。

💰Mistral OCR透過API mistral-ocr-latest開放,定價為1美元/1000頁,批次推論任務則1美元可處理近2000頁,目前已在la Platforme上向開發人員開放,未來將推向Mistral AI雲端或第三方推論服務平臺,並允許部分客戶在本地部署環境執行。

法國AI新創公司Mistral AI本周發表光學字元辨識(OCR)API,名為Mistral OCR,以加速文件數位化作業,並號稱效能超越Gemini 1.5、GPT-4o。

Mistral AI指出,Mistral OCR不同其他模型,能以超越以往的精確性和認知能力來理解文件的每一種元素,包括影音、圖片、表格、文字、數學方程式或進階版型如LaTex格式。因此即使是包含圖表、方程式和數字、圖形的科學論文這類豐富文件,Mistral OCR也能深切理解。

在輸入端,Mistral API可支援文字、圖片、PDF,以及圖文交錯的文件,並從中擷取出內容。因此Mistral OCR很適合結合檢索增強生成(retrieval-augmented generation,RAG)系統來處理多模態文件(像是簡報或複雜的PDF)。它還支援文件為提示(document as prompt)的處理,讓用戶可以從文件擷取出特定資訊,再套用格式加入到結構化輸出中,例如JSON。用戶可將擷取出的輸出灌注到下游函式呼叫,開發代理人。

Mistral AI也比較了新的Mistral OCR與Google Document AI、Azure OCR、Gemini 1.5、GPT-4o,顯示不論是在理解數學、多語、表格及掃瞄內容上都優於競爭對手。此外,Mistral OCR號稱速度業界最快,單一節點每分鐘可處理2,000頁。

可能的應用場景包括科學研究數位化、歷史文化保存、提升客服效率、以及將紙本文件預處理以供AI處理等。

Mistral OCR已是Mistral聊天機器人Le Chat理解文件任務的預設模型,現在則透過API mistral-ocr-latest開放,代價為1美元1,000頁,如果是批次推論任務,則1元可處理近2,000頁。

現在Mistral API可在la Platforme上向開發人員開放。Mistral AI計畫很快會將之推向Mistral AI的雲端或第三方推論服務夥伴平臺,以及允許部分客戶在本地部署環境上執行。圖片來源/Mistral AI

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Mistral OCR 光學字元辨識 文件數位化 人工智能 API
相关文章