Notebookcheck Logo

A Mistral OCR pontosan átalakítja az összetett dokumentumokat szerkeszthető fájlokká mesterséges intelligenciával

A Mistral OCR mesterséges intelligenciát használ a nyomtatott és PDF dokumentumok pontos átalakításához szerkeszthető fájlokká. (Kép forrása: Mistral)
A Mistral OCR mesterséges intelligenciát használ a nyomtatott és PDF dokumentumok pontos átalakításához szerkeszthető fájlokká. (Kép forrása: Mistral)
A Mistral bemutatta optikai karakterfelismerő API-ját, amelyet vállalkozások használhatnak nagy mennyiségű dokumentum gyors és pontos átalakítására szerkeszthető digitális fájlokká.
Launch Business Software AI

A Mistral új terméket dobott piacra Mistral OCR néven, amely egy mesterséges intelligenciával működő optikai karakterfelismerő API, amelyet úgy terveztek, hogy kiválóan alkalmas legyen nyomtatott dokumentumok digitális fájlokká történő átalakítására.

Több millió nyomtatott dokumentum és szerkeszthetetlen PDF-fájl létezik, köztük régi anyakönyvek és könyvek. Az optikai karakterfelismerő szoftver ezen forrásanyagok szövegét és elrendezését szerkeszthető digitális fájlokká alakítja át. Bár az OCR szoftverek könnyen és pontosan konvertálják a sima szöveges dokumentumokat, gyakran gondot okoznak az összetett táblázatok és grafikonok, valamint az idegen nyelvek.

A Mistral OCR-t kifejezetten a többnyelvű, összetett dokumentumok konvertálásának figyelembevételével hozták létre. A Mistral pontossága a szövegkonvertálásban 11 nyelven 97,00%-tól 99,54%-ig terjed, ami jobb, mint a Microsoft és a Google AI OCR ajánlatainak teljesítménye. Az összetett dokumentumkonverziók, például a matematikát vagy táblázatokat tartalmazó dokumentumok esetében is nagyobb a pontossága, mint a tesztelt versenytársaké.

A Mistral OCR API jelenleg 50 MB-nál kisebb méretű és 1000 oldalnál rövidebb feltöltött dokumentumokra korlátozódik. A nyomtatott dokumentumokat először digitalizálni kell az olyan szkennerekkel , mint például ez az Amazonon található, míg a PDF-fájlok, képek és weboldalak közvetlenül feldolgozhatók.

A Mistral OCR a versenytársaknál jobban teljesít az összetett dokumentumokon. (Kép forrása: Mistral)
A Mistral OCR a versenytársaknál jobban teljesít az összetett dokumentumokon. (Kép forrása: Mistral)
A Mistral OCR a versenytársaknál jobban kezeli a több tucat nyelven történő szövegkonvertálást. (Kép forrása: Mistral)
A Mistral OCR a versenytársaknál jobban kezeli a több tucat nyelven történő szövegkonvertálást. (Kép forrása: Mistral)
A Mistral OCR API használatához mindössze néhány sor Python kód szükséges. (Kép forrása: Mistral)
A Mistral OCR API használatához mindössze néhány sor Python kód szükséges. (Kép forrása: Mistral)
 

Mistral OCR

Bemutatjuk a világ legjobb dokumentumértelmező API-ját.

Kutatás

Március 6., 2025

Mistral AI Team

A történelem során az információ absztrakciójában és visszakeresésében elért fejlődés hajtotta az emberiség fejlődését. A hieroglifáktól a papiruszokig, a nyomdától a digitalizálásig, minden egyes ugrás hozzáférhetőbbé és használhatóbbá tette az emberi tudást, ami további innovációt táplált.

Ma a következő nagy ugrás küszöbén állunk - a digitalizált információk kollektív intelligenciájának felszabadítása előtt. A világ szervezeti adatainak mintegy 90%-át dokumentumok formájában tárolják, és ennek a potenciálnak a kiaknázása érdekében vezetjük be a Mistral OCR-t.

A Mistral OCR egy optikai karakterfelismerő API, amely új szabványt állít fel a dokumentumok megértésében. Más modellekkel ellentétben a Mistral OCR a dokumentumok minden egyes elemét - médiát, szöveget, táblázatokat, egyenleteket - példátlan pontossággal és megismeréssel érti meg. Képeket és PDF-eket fogad bemenetként, és a tartalmat rendezett, egymásba illesztett szövegben és képekben vonja ki.

Ennek eredményeképpen a Mistral OCR ideális modell a multimodális dokumentumokat (például diákat vagy összetett PDF-eket) bemenetként használó RAG-rendszerrel kombinálva.

A Mistral OCR-t a Le Chat több millió felhasználója számára a dokumentummegértés alapértelmezett modelljévé tettük, és a Mistral-ocr-latest API-t 1000 oldal/$ áron adjuk ki (és körülbelül kétszer annyi oldal/dollár értéken, kötegelt következtetéssel). Az API ma már elérhető a la Plateforme fejlesztői csomagunkon, és hamarosan elérhető lesz felhő- és következtetési partnereink számára, valamint helyben is.

Kiemelt információk

Az összetett dokumentumok legkorszerűbb megértése

Natívan többnyelvű és multimodális

Csúcskategóriás referenciaértékek

Kategóriájában a leggyorsabb

Dokumentum mint súgó, strukturált kimenet

Szelektíven elérhető saját tárhelyként a rendkívül érzékeny vagy minősített információkkal foglalkozó szervezetek számára

Merüljünk el mindegyikben.

Az összetett dokumentumok legkorszerűbb megértése

A Mistral OCR kiválóan érti az összetett dokumentumelemeket, beleértve az egymásba ágyazott képeket, matematikai kifejezéseket, táblázatokat és fejlett elrendezéseket, például a LaTeX-formázást. A modell lehetővé teszi a gazdag dokumentumok, például a diagramokkal, grafikonokkal, egyenletekkel és ábrákkal ellátott tudományos dolgozatok mélyebb megértését.

Az alábbiakban egy példa látható arra, hogy a modell egy adott PDF-ből a szöveget és a képeket is kivonja egy markdown fájlba. A jegyzetfüzetet itt érheti el.

Az alábbiakban a PDF-ek és a hozzájuk tartozó OCR-kimenetek egymás melletti összehasonlítását mutatjuk be. A csúszka fölé mozgatva válthat a bemenet és a kimenet között.

Táblázatok + ábrák

3 példa

OCR eredmény

3 Ocr

Matematika

4 példa

OCR eredmény

4 Ocr

Hindi

5 példa

OCR eredmény

Hindi Ocr

Dokumentum

6 példa

OCR eredmény

6 Ocr

Arabic

7 példa

OCR eredmény

Arab OCR

Csúcstípusú referenciaértékek

A Mistral OCR a szigorú összehasonlító teszteken folyamatosan felülmúlta a többi vezető OCR-modell teljesítményét. A dokumentumelemzés több szempontból is kimagasló pontosságát az alábbiakban szemléltetjük. A szöveggel együtt beágyazott képeket is kivonunk a dokumentumokból. Az alább összehasonlított többi LLM nem rendelkezik ezzel a képességgel. A tisztességes összehasonlítás érdekében az alábbiakban a különböző publikációkat és a világhálóról származó PDF-eket tartalmazó belső "csak szöveges" tesztkészletünkön értékeljük őket:

Modell Általános Matematikai Többnyelvű Szkennelt Táblázatok

Google Document AI 83.42 80.29 86.42 92.77 78.16

Azure OCR 89,52 85,72 87,52 94,65 89,52

Gemini-1.5-Flash-002 90,23 89,11 86,76 94,87 90,48

Gemini-1.5-Pro-002 89.92 88.48 86.33 96.15 89.71

Gemini-2.0-Flash-001 88.69 84.18 85.80 95.11 91.46

GPT-4o-2024-11-20 89,77 87,55 86,00 94,58 91,70

Mistral OCR 2503 94,89 94,29 89,55 98,96 96,12

Többnyelvűség

A Mistral alapítása óta arra törekszünk, hogy modelljeinkkel a világot szolgáljuk, ezért kínálatunkban többnyelvűségre törekedtünk. A Mistral OCR új szintre emeli ezt, mivel képes több ezer írásjel, betűtípus és nyelv elemzésére, megértésére és átírására minden kontinensen. Ez a sokoldalúság kulcsfontosságú mind a különböző nyelvi hátterű dokumentumokat kezelő globális szervezetek, mind a hiánypiacokat kiszolgáló hiperlokális vállalkozások számára.

Modell Fuzzy Match a generálásban

Google-Document-AI 95,88

Gemini-2.0-Flash-001 96,53

Azure OCR 97,31

Mistral OCR 2503 99,02

Benchmarkok nyelvek szerint:

Nyelv Azure OCR Google Doc AI Gemini-2.0-Flash-001 Mistral OCR 2503

ru 97,35 95,56 96,58 99,09

fr 97.50 96.36 97.06 99.20

hi 96.45 95.65 94.99 97.55

zh 91,40 90,89 91,85 97,11

pt 97.96 96.24 97.25 99.42

de 98,39 97,09 97,19 99,51

es 98,54 97,52 97,75 99,54

tr 95.91 93.85 94.66 97.00

uk 97,81 96,24 96,70 99,29

it 98,31 97,69 97,68 99,42

ro 96,45 95,14 95,88 98,79

Kategóriájában a leggyorsabb

Mivel a Mistral OCR könnyebb, mint a kategória legtöbb modellje, jelentősen gyorsabban teljesít társainál, akár 2000 oldalt is feldolgoz percenként egyetlen csomóponton. A dokumentumok gyors feldolgozásának képessége biztosítja a folyamatos tanulást és fejlesztést még a nagy áteresztőképességű környezetekben is.

Dokumentum-alapú, strukturált kimenet

A Mistral OCR bevezeti a dokumentumok súgóként való használatát is, ami erőteljesebb és pontosabb utasításokat tesz lehetővé. Ez a képesség lehetővé teszi a felhasználók számára, hogy konkrét információkat nyerjenek ki a dokumentumokból, és azokat strukturált kimenetekben, például JSON-ban formázzák meg. A felhasználók a kivont kimeneteket láncba fűzhetik a későbbi funkcióhívásokhoz és ügynököket építhetnek. Lásd ezt a példafüzetecskét.

Szelektív alapon saját tárhelyen is elérhető

A szigorú adatvédelmi követelményekkel rendelkező szervezetek számára a Mistral OCR önhostolási lehetőséget kínál. Ez biztosítja, hogy az érzékeny vagy minősített információk biztonságban maradnak a saját infrastruktúráján belül, így biztosítva a szabályozási és biztonsági előírásoknak való megfelelést. Ha szeretné velünk együtt megvizsgálni az önálló telepítést, kérjük, jelezze felénk.

Felhasználási esetek

Béta-ügyfeleinket képessé tesszük arra, hogy a kiterjedt dokumentumtárak intézkedésekké és megoldásokká alakításával emeljék szervezeti tudásukat. Néhány kulcsfontosságú felhasználási eset, ahol technológiánk jelentős hatást gyakorol, a következő:

A tudományos kutatások digitalizálása: Vezető kutatóintézetek kísérleteznek a Mistral OCR-rel, hogy tudományos cikkeket és folyóiratokat AI-képes formátumba alakítsanak át, és így hozzáférhetővé tegyék azokat a downstream intelligenciamotorok számára. Ez megkönnyítette a mérhetően gyorsabb együttműködést és felgyorsította a tudományos munkafolyamatokat.

A történelmi és kulturális örökség megőrzése: Az örökséget őrző szervezetek és nonprofit szervezetek a Mistral OCR-t használják a történelmi dokumentumok és műtárgyak digitalizálására, biztosítva azok megőrzését és szélesebb közönség számára elérhetővé téve azokat.

Az ügyfélszolgálat egyszerűsítése: Az ügyfélszolgálati részlegek a Mistral OCR-t használják a dokumentációk és kézikönyvek indexelt tudássá alakítására, csökkentve ezzel a válaszidőt és javítva az ügyfelek elégedettségét.

A szakirodalom elkészítése a tervezés, az oktatás, a jogi stb. AI-képessé: A Mistral OCR a vállalatoknak is segít a műszaki szakirodalom, mérnöki rajzok, előadásjegyzetek, prezentációk, hatósági beadványok és sok más dokumentum indexelt, válaszkész formátumokká alakításában, felszabadítva az intelligenciát és a termelékenységet több millió dokumentumban.

Tapasztalja meg még ma

A Mistral OCR képességeit ingyenesen kipróbálhatja a le Chat-en. Az API kipróbálásához látogasson el a la Plateforme oldalra. Szívesen fogadjuk visszajelzéseit; számítunk arra, hogy a modell a következő hetekben még tovább fog fejlődni. Stratégiai elkötelezettségi programjaink részeként szelektív alapon helybeni telepítést is kínálunk majd.

Please share our article, every link counts!
Mail Logo
> Magyarország - Kezdőlap > Newsarchive 2025 03 > A Mistral OCR pontosan átalakítja az összetett dokumentumokat szerkeszthető fájlokká mesterséges intelligenciával
David Chien, 2025-03-11 (Update: 2025-03-11)