縱觀歷史,資訊抽象和檢索的進步推動了人類的進步。從象形文字到紙莎草紙,從印刷機到數位化,每一次飛躍都使人類知識更易於獲取和操作,從而推動進一步的創新。
今天,我們正處於下一次大飛躍的邊緣——釋放所有數位化訊息的集體智慧。世界上大約 90%的組織資料都以文件形式存儲,為了發揮這一潛力,我們引入了Mistral OCR。
Mistral OCR 是一種光學字元辨識 API,它為文件理解樹立了新的標準。與其他模型不同,Mistral OCR 以前所未有的準確性和認知能力理解文件的每個元素——媒體、文字、表格、方程式。它以圖像和 PDF 作為輸入,並以有序交錯的文字和圖像中提取內容。
因此,Mistral OCR 是與以多模式文件(如幻燈片或複雜的 PDF)作為輸入的 RAG 系統結合使用的理想模型。
我們已將 Mistral OCR 作為 Le Chat 上數百萬用戶的文檔理解預設模型,並以 1000 頁 / $ 的價格發布 API mistral-ocr-latest(透過批量推理,每美元的頁數大約增加一倍)。該 API 現已在我們的開發套件 la Plateforme上提供,並將很快在我們的雲端和推理合作夥伴以及本地提供。
亮點
- 對複雜文件的最新理解
- 原生多語言和多模式
- 頂級基準
- 同級中速度最快
- 文件即刻、結構化輸出
- 對於處理高度敏感或機密資訊的組織,可選擇自行託管
對複雜文件的最新理解
Mistral OCR 擅長理解複雜的文件元素,包括交錯圖像、數學表達式、表格和高級佈局(如 LaTeX 格式)。該模型能夠更深入地理解包含圖表、圖形、方程式和數字的豐富文檔,例如科學論文。
同級中速度最快
Mistral OCR 比同類產品中的大多數型號更輕,但效能卻比同類產品快得多,在單一節點上每分鐘可處理多達 2000 頁。快速處理文件的能力確保即使在高吞吐量環境中也能持續學習和改進。
文件即刻、結構化輸出
Mistral OCR 還引入了使用文件作為提示的功能,從而能夠提供更強大、更精確的指令。此功能允許使用者從文件中提取特定資訊並將其格式化為結構化輸出,例如 JSON。使用者可以將提取的輸出連結到下游函數呼叫和建置代理程式中。請參閱此範例 筆記本。
https://mistral.ai/en/news/mistral-ocr
Picture Source:
mistral.ai