Mal eben eine Texterkennung durchführen? Ächz! Mal ehrlich, man hat doch alles mögliche auf dem Rechner, vielleicht sogar die Scanner-Software, aber gewiss kein OCR-Programm. Schön, dass es OCR-Dienste im Web gibt, die kostenlos PDFs und JPGs mit gescannten oder fotografierten Texten zu TXT, RTF und Word-DOCs konvertieren.
Eines Vorweg: Wer diesen Diensten einen Scan anvertraut, muss natürlich damit rechnen, dass die ihn lesen & dass er nun nicht mehr „vertraulich“ ist. Nachrichtendienstler und Kalte-Kernfusion-Kraftwerke-Erfinder nehmen also lieber die gute alte OCR-Software zum Installieren.
Free OCR www.free-ocr.com
Bei Free OCR können Sie ohne Anmeldung Dateien in den Formate PDF, JPG, TIFF und andere mit bis zu 2 MByte uploaden und erhalten das Ergebnis der Texterkennung als Plaintext via Cut&Past direkt aus der Website. Es stehen wichtige Euro-Sprachen zur Verfügung, darunter auch Deutsch. Die Erkennung ist anständig, auch mit Umlauten, selbst aus Handy-Shots. Allerdings verarbeitet die Seite keine Multipage-PDFs, also immer nur die erste Seite.
Erste Anlaufstelle für OCR-Suchende mit Scans deutscher Texte.
Online OCR www.onlineocr.net
Bei Online OCRE können Sie ohne Anmeldung ein PDF-Scan mit bis zu 1 MByte Größe hochladen. Nach Eingabe eines Captchas erhalten Sie sofort einen ASCII-Text, denn Sie per Cut & Paste übernehmen können. Ohne Anmeldung verwendet der Dienst allerdings nur Englisch als OCR-Sprache.
Mit Anmeldung (kostenpflichtig) stehen 28 Sprachen zur Verfügung, darunter auch Deutsch. Außerdem gibt’s dann die Möglichkeit, Multipage-TIFFs, Kamera-JPGs und so weiter bis 20 MByte zu verarbeiten und in verschiedenen Formaten (TXT, RTF, Word, PDF) ausgeben zu lassen.
Interessant, wenn man mal eine einzelne Seite ruckzuck ocren will.
OCR Terminal www.ocrterminal.com
Bei OCR Terminal müssen Sie sich zwar in jedem Fall anmelden, aber im kostenlosen Modus stehen Ihnen pro Monat 20 Seiten für die freie Texterkennung zur Verfügung. Die Scans können Sie wahlweise als PDF, JPG, TIFF einreichen, wobei die Seite maximal 10 MByte groß sein darf. Das Ergebnis lässt sich als TXT, DOC, RTF und PDF herunterladen. Umlaute bleiben hier völlig auf der Strecke, weil man keine Sprache angeben kann. Dafür versucht OCR Terminal aber, auch Layouts ins DOC zu übernehmen.
Naja.
WeOCR weocr.ocrgrid.org
Dieses Projekt aus Japan will ein OCR-System entwickeln, das weltweit für genau solche Web-Dienste, wie sie hier beschrieben sind, eingesetzt werden kann. Man sucht man sich auf https://weocr.ocrgrid.org/… einen der Server aus, die mit einer europäischen Sprache umgehen kann, und schickt dann kostenlos seine Daten hoch. Die Server akzeptieren allerdings nur JPG und einige andere Bildformate. Das Scan-Ergebnis ist derzeit schlechter als bei den beiden oben genannten Diensten.
Hmm.
Über die Erkennung lässt sich sagen, dass sie überall nicht perfekt ist.
- Klare Scans, die auch eine lokale OCR-Software erkennen würde, erkennen auch diese OCR-Dienste im Web sehr gut und machen Fehler nur bei Umlauten (außer die, es mehrere Sprachen kennen).
- Handy-Fotos aus Zeitschriften haben bei Web-OCR-Services eine Chance, wenn Sie beim Knipsen auf viel Licht und wenig Spiegelung im Papier achten und die Seiten möglichst gerade aufnehmen.
- Ganz allgemein wird es schwierig immer dann, wenn die Texte nicht kontrastreich genug sind. Sie mit einer Bildbearbeitung nachzukontrasten bringt wenig, das machen die Services schon intern vor der OCR.
- Mit weißem Text auf schwarzen Untergrund gibt es oft Probleme. Es kann sich lohnen, hier im Bedarfsfall das Image zu invertieren.