Crosscap Enterprise TR ResiScan Handbuch
Texterkennung (Projekt)
CROSSCAP Enterprise TR ResiScan Handbuch > Projektvorlagen (Server) > Bildverarbeitung > Texterkennung (Projekt)

Die Texterkennung (oder OCR, optical character recognition) erlaubt die Umwandlung von Text-Abbildungen in weiter verarbeitbare Zeichenketten. Diese Zeichenketten (oder ausgefilterte Teile davon) werden an anderer Stelle zur Bereitstellung von Index-Information verwendet.

 

Das allgemeine Erscheinungsbild dieses Optionsmenüs:


 

Die Konfigurationsmöglichkeiten für Texterkennung, im Detail:

 

Nur Zahlen

Bevorzugt Ziffern, bei der Interpretation gelesener Zeichen. Als Konsequenz verschiebt diese Einstellung bei typischen Erkennungsproblemen (z.B. O oder 0, I oder 1, S oder 5 etc.) den Schwerpunkt bei der Textausgabe in Richtung der Ziffern (hier also zu 0, 1 und 5).

 

Zeichenliste

Zeichen in dieser Liste können bei Bedarf entfernt oder ersetzt werden. Die gewünschten Zeichen werden ohne Trennzeichen nacheinander eingegeben. Diese Liste wird von der Funktion Umgang mit Steuerzeichen (siehe unten) verwendet. Wird sie dort nicht ausgewählt, hat diese Liste keine Auswirkungen.

 

Vorschaufarbe Warnung

Markiert Zeichen oder Textpassagen, bei denen die Texterkennung nicht eindeutig war, in der gewünschten Farbe. Geben Sie entweder den passenden Farbcode (RGB Hex-Wert) händisch ein, oder benutzen Sie den Colour-Picker, rechts neben dem Eingabefeld.

 

Vorschaufarbe

Markiert erkannten Text in der gewünschten Farbe. Dient der Unterscheidung bei mehrfachen Texterkennungen. Geben Sie entweder den passenden Farbcode (RGB Hex-Wert) händisch ein, oder benutzen Sie den Colour-Picker, rechts neben dem Eingabefeld.

 

Umgang mit Steuerzeichen

Legt fest, wie mit Steuerzeichen (nicht-druckbare Zeichen wie z.B. Zeilenschaltungen) oder mit den Zeichen aus der Zeichenliste (weiter oben) zu verfahren ist:

 

Verarbeitung auf Seite

Hier können Sie festlegen, auf welchen Seiten nach Text gesucht werden soll. Je weiter Sie hier die Suche einschränken, um so schneller wird die Verarbeitung, weil nicht sinnlos auf Seiten nach Text gesucht wird, auf denen sich absehbar keiner befindet. Mögliche Einstellungen sind:

Bitte beachten Sie: Die Optionen N-te Seite im Projekt und N-te Seite im Dokument beziehen sich auf die unten folgende Einstellung Verarbeitung auf N-ter Seite und müssen gemeinsam mit ihr konfiguriert werden.

 

Verarbeitung auf N-ter Seite

Nimmt die Texterkennung wiederkehrend nur auf jeder n-ten Seite des aktuellen Projektes (die Zählung beginnt mit der ersten Seite des ersten Stapels) oder auf jeder n-ten Seite jedes logischen Dokumentes (die Zählung beginnt von Neuem, nach jedem Dokumenttrenner) vor, je nachdem, was unter Verarbeitung auf Seite (s.o.) hinterlegt wurde. Geben Sie hier die gewünschte Anzahl der Seiten ein.

 

Text muss vorhanden sein

Im Regelfall überspringt die CROSSCAP Enterprise TR ResiScan Text-Erkennung kommentarlos alle Seiten oder Suchbereiche, auf denen kein Text zu finden ist. Die Aktivierung dieser Option (Häkchen gesetzt) führt dazu, dass der Scan-Vorgang an solchen Stellen angehalten wird, um auf das Fehlen eines Textes hinzuweisen. Gleichzeitig erhalten Sie die Möglichkeit, den fehlenden Text händisch einzugeben.

 

Neues Dokument

Wird der in der Vergleichszeichenkette (oben) spezifizierte Text erkannt, wird vor dem Dokument mit diesem Text ein Dokumenttrenner eingefügt und der Dokumentenzähler entsprechend heraufgesetzt.

 

Sprache

Die Texterkennungssprache sollte an die Sprache der Dokumenten-Inhalte angeglichen werden, um eine möglichst gute Erkennungsrate zu erzielen und die Erkennung von länderspezifischen Zeichen (z.B. Umlauten) zu ermöglichen.

 

Geraderücken

Stellt das Bild automatisch gerade. Die Texterkennung erreicht hierdurch im Regelfall ein deutlich besseres Erkennungsergebnis. Schalten Sie diese Funktion also möglichst immer ein.

 

Nur Patchcodeseiten

Schränkt die Suche nach Text auf Seiten mit einem Patchcode ein. Das Setzen des Häkchens führt also dazu, dass nur auf Patchcode-Seiten nach Text gesucht wird und alle sonstigen Seiten ignoriert werden.

 

Löschmarkierung setzen

Wird der in der Zeichenkette Filter (siehe unten) spezifizierte Text erkannt, wird das betroffene Bild mit einer Löschmarkierung versehen und beim Export des Stapels ignoriert. Diese Seite wird also nicht in der Ausgabedatei enthalten sein.

Die Einstellung Automatisch führt dazu, dass auch alle dazugehörigen Bilder (z.B. Vorderseite und Rückseite eines Blattes mit dem entsprechenden Text) nach dem Export nicht mehr in der Ausgabedatei enthalten sein werden.

Da nicht jeder Scanner präzise Metadaten zu gescannten Bildern liefert (z.B. im Multistream-Modus), kann man hier alternativ und behelfsweise eine Anzahl von Folgebildern (1 Seite ... 5 Seiten) angeben, die nach der Seite mit dem erkannten Text ebenfalls mit einer Löschmarkierung versehen werden sollen.

 

Eingeschaltet

Schaltet diese Funktion ein (Häkchen gesetzt) oder aus.

 

Bildverarbeitung auf dem Server

Um den CROSSCAP TR ResiScan Scan-Client von rechenintensiven Bildbearbeitungsfunktionen zu entlasten und den Scan-Vorgang zu beschleunigen, können Bildbearbeitungsfunktionen selektiv an den CROSSCAP Enterprise TR ResiScan Server ausgelagert werden. Ist die Option aktiviert (Häkchen gesetzt), dann wird die Erledigung dieser Bildbearbeitungsfunktion vom Server übernommen und nach Abschluss des Scan-Vorgangs abgearbeitet.

Achtung: Falls vom Server während der ausgelagerten Bildbearbeitung Fehlerzustände festgestellt werden, wird eine Indexierung durch den CROSSCAP TR ResiScan Multi-Client erzwungen (und zwar auch dann, wenn eine manuelle Indexierung seitens der Projektvorlage nicht vorgesehen war).

Grundsätzlich empfiehlt es sich, bei der Auslagerung von Bildverarbeitungsfunktionen eine Qualitätsprüfung und/oder eine manuelle Indexierung einzurichten, da ansonsten keine Möglichkeit zur Sichtung des verarbeiteten Materials und zu eventuell nötigen Korrekturen gegeben ist.

Bitte achten Sie zudem darauf, dass aufeinander aufbauende bzw. voneinander abhängige Bildverarbeitungsfunktionen auf die jeweils gleiche Weise verarbeitet werden, also entweder alle auf dem CROSSCAP Enterprise TR ResiScan Server oder alle auf dem CROSSCAP TR ResiScan Scan-Client.

 

Name

Vergeben Sie einen eindeutigen Namen für diese Konfiguration. Dieser Name wird später an anderer Stelle verwendet, um auf diese Texterkennungs-Konfiguration zuzugreifen. Wird kein eigener Name vergeben, numeriert CROSSCAP Enterprise TR ResiScan die Konfigurationen (z.B. "Texterkennung 1").

 

S/W-Seiten ignorieren, Grauton-Seiten ignorieren, Farbseiten ignorieren

Bezieht sich auf den sog. Multistream Modus. Sofern Multistream nicht aktiv ist, sollten diese Filter ausgeschaltet bleiben. Ansonsten schalten Sie bitte ein oder zwei dieser Filter ein (setzen Sie die entsprechenden Häkchen), um die Suche nach Text auf den nicht relevanten Bildtypen zu unterbinden (dies erspart unnütze CPU-Last). Bitte beachten Sie, dass die Auswahl aller drei Optionen dem völligen Abschalten der Texterkennung entspricht.

 

Leerseiten ignorieren

Hiermit verhindern Sie (Häkchen gesetzt), dass CROSSCAP Enterprise TR ResiScan auf Leerseiten nach Text sucht (dies erspart unnütze CPU-Last).

 

Ignoriere erste Dokumentseite

Wenn diese Option aktiviert ist, dann werden Seiten, die den Beginn eines neuen Dokuments ausgelöst haben (z.B. Patchcode-Blätter), nicht von dieser Funktion bearbeitet.

 

Ignoriere Deckseiten

Wurden für diese Projektvorlage Deckblätter spezifiziert, werden diese von dieser Bildverarbeitungsfunktion ignoriert.


 

Die Konfigurationsmöglichkeiten für Suchbereiche:

Suchbereich

Pro eingerichtetem Suchbereich können die genaue Lage und die Abmessungen dieses Suchbereiches vorgeben werden.

X und Y Koordinaten

Die Koordinaten sind in Zehntel Millimetern anzugeben. Der Nullpunkt des Koordinatensystems entspricht der linken, oberen Ecke der Bilder, die Koordinaten geben die Entfernung zur linken, oberen Ecke des jeweiligen Suchbereiches vor.

Breite und Höhe

Breite und Höhe des Suchbereiches sind ebenfalls in Zehntel Millimetern anzugeben.

 


 

Die Konfigurationsmöglichkeiten für Zeichenkette Filter

Die hier zur Überprüfung der eingelesenen Textpassagen angebotenen Optionen entsprechen vollständig den Validierungsoptionen für Indexwerte. Diese werden im Abschnitt Validierung (Index), im Kapitel Indexfelder detailliert beschrieben.

 


 

Die Konfigurationsmöglichkeiten für Bildvorbereitung

Die hier gelisteten Unterfunktionen erlauben eine temporäre Veränderung der gescannten Bilder, um die Voraussetzungen für die Texterkennung zu verbessern. Beachten Sie bitte, dass die hier angewendeten Bildbearbeitungsfunktionen keine dauerhafte Veränderung der gescannten Bilder hervorrufen, also in den Ausgabedateien nicht mehr zu sehen sind.

Die zur Verfügung stehenden Funktionen stellen eine Untermenge der allgemein verfügbaren Bildverarbeitungsfunktionen dar. Details zu den einzelnen Funktionen erfahren Sie im entsprechenden Abschnitt:

Siehe auch

Anhang