[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] deskew-Software zum "Geraderücken" gescannter Seiten




Lieber Herr Roth-Steiner,
im  DFG-geförderten Projekt OCR-D beschäftigen wir uns unter anderem  intensiv 
mit dem Thema Bildoptimierung. Die Kollegen vom CIS in München  haben dazu 
gemeinsam mit der ASV der Universität Leipzig die bekannte,  quelloffene 
OCR-Software OCRopus modularisiert und modernisiert, so dass  ein separater 
Prozessor für die Bildbegradigung (Deskewing) zur  Verfügung steht. Wie alle 
Werkzeuge, die innerhalb von OCR-D entwickelt  werden, nutzt auch dieser die 
ocrd-Workflowengine, die für die Verwendung auf der Linux-Kommandozeile 
konzipiert ist. Eingabe für ocrd ist immer eine METS-Datei, die die zu 
bearbeitenden Dateien in einzelnen fileGroup-Elementen verzeichnet. Jeder 
Prozessoraufruf hat eine kanonische Struktur:ocrd-processor -I 
Eingabe-fileGroup -O Ausgabe-fileGroup -p Parameter mets.xml

Der Prozessor für das Deskewing, der Bestandteil von ocrd_cis ist, heißt 
ocrd-cis-ocropy-deskew. Es ist uns bewusst, dass ocrd  für Ihren Anwendungsfall 
einen gewissen Overhead mitbringt, sind aber  überzeugt, dass sich der 
Mehraufwand der Einarbeitung in das Ökosystem  lohnt. Neben dem Deskewing haben 
Sie so die Möglichkeit, weitere  Bildoptimierungsprozesse (z.B. Despeckling 
oder Dewarping) auf die  gleiche Weise anzuwenden und so Ihre Digitalisate 
optimal für die  Texterkennung vorzubereiten. Zögern Sie nicht, bei uns 
nachzufragen,  z.B. über unseren öffentlichen Chat unter 
https://gitter.im/OCR-D/Lobby.
Beste Grüße und viel Erfolg mit den OCR-D-Werkzeugen
 Elisabeth Engl (HAB Wolfenbüttel)



 Von:   "Roth-Steiner, Roland via InetBib" <inetbib@xxxxxxxxxx> 
 An:   "inetbib@xxxxxxxxxx" <inetbib@xxxxxxxxxx> 
 Gesendet:   09.04.2020 8:48 
 Betreff:   [InetBib] deskew-Software zum "Geraderücken" gescannter Seiten 

Liebe Liste, 
 
im Rahmen eines Zeitungs-OCR-Projektes sind wir auf der Suche nach einer 
Software, die automatisiert gescannte bzw. fotografierte Buchseiten 
"geraderückt" - also Verzerrungen / Wölbung etc. ausgleicht (im Fachjargon als 
"deskew" bezeichnet). 
 
Am liebsten etwas, was unter einem aktuellen Linux in eine Batch-Verarbeitung 
eingebunden werden kann. 
 
Danke für Hinweise, Erfahrungen, Links etc. 
 
LG 
 
....................................... 
Roland Roth-Steiner 
M.Sc. Wirtsch.-Inf., Dipl.-Bibl. 
. Univ.- und Landesbibliothek 
... Informationstechnologie, 
... Forschung + Entwicklung 
. Magdalenenstr. 8, 64289 Darmstadt 
+49 (0)6151 16-76280 
....................................... 
 

Listeninformationen unter http://www.inetbib.de.