OCR Erkennung unter Linux

Lange Zeit war es – meines Erachtens – still um eine funktionierende OCR-Erkennung unter Linux.

Nun bin ich auf ein Projekt – vielmehr zwei Projekte – gestoßen, die eine funktionierende und sinnvolle Symbiose eingehen.

Ergebnis ist eine OCR-Erkennung die mit Bilder und PDF´s gleichermaßen klarkommt und auch noch mehrere Spalten unterstützt.

Es handelt sich um

  • Tesseract
  • GImageReader

Unter Fedora 17 sind die aktuelle Pakete von Tesseract (Version 3.00-3) enthalten. Mit einem einfachem yum install tesseract tesseract-langpack-deu lässt sich die OCR-Erkennung installieren.

Das RPM von GImageReader lässt sich von http://sourceforge.net/projects/gimagereader/files/ recht einfach über Apper installieren. Da es ein in Phyton geschriebenes Interface handelt, kann man beruhigt die Version für FC15 installieren.

Mein erstes Testergebnis hat mich persönlich überzeugt. Ich fand in einem kurzen halbseitigem/dreispaltigem Artikel keinen Lesefehler !!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert