Für die Texterkennung (OCR) nutzt CROSSCAP Enterprise standardmäßig die Open-Source Engine Tesseract (Tesseract wird zurzeit von GoogleCode betreut und weiterentwickelt). Optional können stattdessen Lizenzen für Abbyy FineReader erworben und eingebunden werden.
Die besten Texterkennungs-Ergebnisse erzielen Sie, wenn Sie Vorlagen mit möglichst geringem Bildanteil verwenden, welche Sie dann bi-tonal und mit hoher Auflösung scannen sollten.
Grundeinstellungen
Vor der ersten Nutzung der Texterkennungsfunktionen sollten Sie die nötigen Grundeinstellungen vornehmen (über den Reiter Administration, siehe Abschnitt Server: Menü und Funktionen).
Fortlaufende Texterkennung (Volltext)
Die CROSSCAP Enterprise Texterkennung ist in der Lage, Text über alle Bilder eines Stapels hinweg zu erkennen und daraus z.B. PDF-Dateien mit hinterlegtem Text (Volltext-PDFs) zu erzeugen. Die Texterkennung wird in diesen Fällen in den entsprechenden Export-Einstellungen konfiguriert, jeweils im Abschnitt Texterkennung. Folgende Export-Formate bieten die Texterkennung an:
Word-Datei (Achtung: Dieses Ausgabeformat steht nur in Verbindung mit dem Abbyy Finereader zur Verfügung!)
Zonen-Texterkennung (Zonal OCR)
Sie können die Texterkennung auch nutzen, um nur ausgewählte Bereiche (sog. Suchbereiche) erkennen zu lassen.
Diese sog. Zonen-OCR kann auf zweifache Weise angewendet werden:
Zum einen automatisiert, zum Beispiel um ein Indexfeld zu füllen. Alle hierfür nötigen Einstellungen sind vor dem Projektstart vorzunehmen. Ausführliche Informationen hierzu finden Sie im Kapitel Server: Projektvorlagen im Abschnitt Bildverarbeitung, unter Texterkennung. Zum anderen ist es während eines Projektes möglich, OCR-Bereiche manuell mit der Maus festzulegen. Der erkannte Text wird in der Windows-Zwischenablage abgelegt und kann von dort in andere Anwendungen übernommen werden. Mehr Details hierzu finden Sie im separaten CROSSCAP Handbuch im Kapitel Menü und Funktionen, im Abschnitt Reiter Bearbeiten.