www. SATIS. de

(06.12.07)


Tipp-Bereich 11: Sonstiges (G 85-99)
Tipp-Gruppe 91: PDF-Dateien / ADOBE READER

Tipp 91-9 : PDF mit OCR-Software lesen

Kurz-Info

PDF-Dokumente können wegen ihres teils grafischen Formats von Sprachausgaben oft nicht vorgelesen werden. Mit Hilfe einer OCR-Software (Texterkennung) ist dies weitgehend erreichbar. Dieses wird am Beispiel Omnipage erläutert.
Man kann PDF-Dokumente auch mittels Freeware konvertieren (vgl. Tipp 91-8). Zum Thema OCR sei auch auf Tippgruppe 63 "Offene Textlesesysteme / OCR" verwiesen.


Beschreibung

1. Allgemeines
Zum Erkennen von PDF-Dokumenten sind verschiedene OCR-Programme geeignet, wobei die Verfahrensweisen sich so sehr unterscheiden, dass eine ausführliche Do-kumentation an dieser Stelle nicht möglich ist. In Testberichten wird die OCR "ABBY FineReader 7" als besonders geeignet zur Erkennung von PDF hervorgehoben.

2. verschiedene Vorgehensweisen
a) PDF Converter für Word
Mit Omnipage 14 wird ein PDF Converter für Word installiert. Damit kann man PDF-Dateien in Word öffnen. Das bedeutet, dass im Hintergrund der Text erkannt und in ein neues Word-Dokument kopiert wird. Dies funktioniert allerdings nur bei den (sel-tenen) PDF-Dateien ohne Beschränkungen. Bei Problemen wird automatisch das Omnipage Hauptprogramm geöffnet.

b) Omnipage Assistent
Die automatische Verarbeitung (1-2-3) fragt nach einer Quelldatei. Man wählt das PDF, das analysiert wird. Dies kann mehrere Minuten dauern. Anschließend muß man (je nach Einstellung) z.B. Dateiformat und -namen wählen und kann den Text aus der neuen Datei (z.B. DOC, RTF, TXT) anschließend über einen Screenreader oder sogar über Omnipage (siehe Tipp 63-9) vorlesen lassen.

c) Kurzanleitung PDF-Umwandlung Omnipage 14 mausfrei
1. Starte die OCR, hier OMNIPAGE
2. Vermutlich ist die Erkennung auf den Scanner eingestellt. Wähle daher in der ers-ten Auswahlliste "Seite abrufen" im Menü "Datei" den Eintrag "Datei laden" aus.
3. Wähle in der Auswahlliste "Ergebnisse exportieren" der Werkzeugleiste die Ein-stellung "Als Datei speichern".
4. Starte den "Scan-Vorgang" über die Schaltfläche "Starten" oder über "Alt+V" und Eingabetaste.
5. Es erscheint der Datei-Manager, in dem du auf üblichem Wege die PDF-Datei auswählen und anklicken kannst.
6. Der Vorgang der Erkennung beginnt sofort und dauert relativ lange. Anschließend wirst du aufgefordert, einen Speicherort und Dateinamen des konvertierten Textes einzugeben; standardmäßig ist als Dateityp *.doc eingestellt, aber es gibt auch andere Einstellungsmöglichkeiten.
7. Danach steht das Dokument an diesem Speicherort frei zur Verfügung.

d) Voreinstellungsmöglichkeiten für die PDF-Konvertierung
Es gibt vielfältige Einstellungsmöglichkeiten für die Umwandlung von PDF, die in der Hilfe (F1) erklärt werden. Viele Teilfunktionen des Programms sind separat aufrufbar und optimierbar, z.B. die Layouterkennung. Auf die Vielfalt dieser Details kann hier nicht eingegangen werden.

3. Links
Scansoft Omnipage, ca. 100 EUR
http://www.scansoft.de/omnipage/
Scansoft PDF Converter, ca. 49 EUR
www.nuance.de/pdfconverter/standard/

ABBYY FineReader, ca. 120 EUR
http://www.abbyy.com/products_de/?param=28674
ABBYY PDF Transformer, ca. 40 EUR
http://www.abbyy.com/products_de/?param=34225

© Die Weitergabe der Tipps mit Quellenangabe ist gestattet.