[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] In PDFs scannen [OT]



Sehr geehrter Herr Müller,

On Mon, 10 Apr 2006 17:24:25 +0200 (MEST) "Sebastian Müller"
<semanthis@xxxxxx> wrote:

[gescannte Artikel als PDFs]
Nun ist meine Frage, ob es Programme gibt die
die Scanns so behandeln, das die Texte im PDF als Texte verfügbar
sind, das aber gleichzeitig die Formatierung sowie Grafiken und
Bilder erhalten bleiben.

Ja, das machen einige OCR-Programme. Allerdings: Ohne manuelle
Nachbearbeitung ist auch dieser Weg sicher noch steinig, wenn wirklich
alles nachgebildet werden soll. Google findet zu "ocr pdf" eigentlich
alle relevanten Programme. Da die zugehörigen Vollversionen mitunter
nicht gerade geschenkt sind, gibt es meistens auch zeit- bzw.
volumenlimitierte Testversionen.

Eine einfache OCR ist auch in Adobe Acrobat (Professional) integriert
und kann beim Punkt "Datei"->"PDF erstellen"->"Scannen" einfach
aktiviert werden. Dann wird aber dennoch das gescannte Image benutzt
und lediglich mit Textinformationen angereichert (unsichtbare Ebene
unter dem Scan-Abbild). Dies ist, so weit ich das beurteilen kann, im
Moment noch die gängige Variante.

Sind die Graphiken als CCITT-G4-Tiffs eingebettet, hält sich das mit
dem Platzverbrauch in Grenzen (jedenfalls, wenn man die benutzten
Graustufen weitgehend reduziert). DjVu ist auch ein interessantes
Format (naja, besser: Formatsammlung) für die Images, hier ist die
Entwicklung aber leider noch nicht so weit und Einbetten ins PDF geht
auch nicht.

MfG,

Hans-Werner Hilse



Listeninformationen unter http://www.inetbib.de.