Crosscap Enterprise TR ResiScan Handbuch
Texterkennung (Wissenswertes)

Für die Texterkennung (OCR) nutzt CROSSCAP Enterprise V4 TR Resiscan standardmäßig die Open-Source Engine Tesseract (Tesseract wird zurzeit von GoogleCode betreut und weiterentwickelt).

Die besten Texterkennungs-Ergebnisse erzielen Sie, wenn Sie Vorlagen mit möglichst geringem Bildanteil verwenden, welche Sie dann bi-tonal und mit hoher Auflösung scannen sollten.

 

Grundeinstellungen

Vor der ersten Nutzung der Texterkennungsfunktionen sollten Sie die nötigen Grundeinstellungen vornehmen (über den Reiter Administration, siehe Abschnitt Server: Menü und Funktionen). 

 

Fortlaufende Texterkennung (Volltext)

Die CROSSCAP Enterprise V4 TR Resiscan Texterkennung ist in der Lage, Text über alle Bilder eines Stapels hinweg zu erkennen und daraus z.B. PDF-Dateien mit hinterlegtem Text (Volltext-PDFs) zu erzeugen. Die Texterkennung wird in diesen Fällen in den entsprechenden Export-Einstellungen konfiguriert, jeweils im Abschnitt Texterkennung. Folgende Export-Formate bieten die Texterkennung an:

PDF/A-Datei

TXT-Datei

XML-Datei

 

Zonen-Texterkennung (Zonal OCR)

Sie können die Texterkennung auch nutzen, um nur ausgewählte Bereiche (sog. Suchbereiche) erkennen zu lassen.

Diese sog. Zonen-OCR kann auf zweifache Weise angewendet werden: