Crosscap Enterprise Handbuch
Texterkennung (Wissenswertes)
CROSSCAP Enterprise Handbuch > Wissenswertes > Texterkennung (Wissenswertes)

Für die Texterkennung (OCR) nutzt CROSSCAP Enterprise standardmäßig die Open-Source Engine Tesseract (Tesseract wird zurzeit von GoogleCode betreut und weiterentwickelt). Optional können stattdessen Lizenzen für Abbyy FineReader erworben und eingebunden werden.

Die besten Texterkennungs-Ergebnisse erzielen Sie, wenn Sie Vorlagen mit möglichst geringem Bildanteil verwenden, welche Sie dann bi-tonal und mit hoher Auflösung scannen sollten.

 

Grundeinstellungen

Vor der ersten Nutzung der Texterkennungsfunktionen sollten Sie die nötigen Grundeinstellungen vornehmen (über den Reiter Administration, siehe Abschnitt Server: Menü und Funktionen). 

 

Fortlaufende Texterkennung (Volltext)

Die CROSSCAP Enterprise Texterkennung ist in der Lage, Text über alle Bilder eines Stapels hinweg zu erkennen und daraus z.B. PDF-Dateien mit hinterlegtem Text (Volltext-PDFs) zu erzeugen. Die Texterkennung wird in diesen Fällen in den entsprechenden Export-Einstellungen konfiguriert, jeweils im Abschnitt Texterkennung. Folgende Export-Formate bieten die Texterkennung an:

PDF/A-Datei

TXT-Datei

Word-Datei (Achtung: Dieses Ausgabeformat steht nur in Verbindung mit dem Abbyy Finereader zur Verfügung!)

XML-Datei

 

Zonen-Texterkennung (Zonal OCR)

Sie können die Texterkennung auch nutzen, um nur ausgewählte Bereiche (sog. Suchbereiche) erkennen zu lassen.

Diese sog. Zonen-OCR kann auf zweifache Weise angewendet werden: