[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[InetBib] Abschriften historischer Drucke (Ground Truth) für das Koordinierungsprojekt OCR gesucht



Liebe Kolleginnen und Kollegen, 

im Rahmen des DFG-Koordinierungsprojekts zur Weiterentwicklung von Verfahren 
der Optical Character Recognition (OCR) (siehe 
http://www.inetbib.de/listenarchiv/msg56722.html) werden verlässliche 
Abschriften in elektronischer Form (sogen. Ground Truth) von historischen 
Drucken aus dem deutschen Sprachraum gesucht. 

Ein wesentliches Desiderat für die Weiterentwicklung von OCR-Verfahren für 
historische Drucke ist eine breite Basis an Trainingsmaterial. Damit können zum 
einen Texterkennungsprogramme trainiert und ihre Erkennungsraten verbessert 
werden. Zum anderen können verschiedene OCR-Verfahren bezüglich ihrer 
Performanz bei historischen Vorlagen untersucht sowie die Qualität maschinell 
erkannter Texte gemessen werden. 

Haben Sie vielleicht Titel des 16. bis 19. Jh.s (deutsch oder lateinisch) im 
Rahmen von Ausstellungen, Projekten etc. erfasst? Entscheidend ist dabei 
weniger Anzahl und Umfang der Titel als die Genauigkeit der Erfassung. Durch 
Mitteilung solcher Materialien (auch einzelner Titel) können Sie zur 
Weiterentwicklung der maschinellen Texterkennung beitragen. Eine für alle frei 
nutzbare OCR kann nur mit breiter Unterstützung vorangetrieben werden. 
Selbstverständlich werden Ihre Daten ausschließlich für die im Projekt 
definierten Ziele verwendet. Alle durch das OCR-Vorhaben zustande gekommenen 
Ergebnisse werden der Fachöffentlichkeit bekannt gemacht und stehen zur 
kostenfreien Nachnutzung durch Dritte bereit.

Wir werden diesen Aufruf auch an geistes- und sozialwissenschaftliche 
Einrichtungen senden, da anzunehmen ist, dass zahlreiche Texte als 
‚Hilfsmittel‘ in unterschiedlichsten Projekten erfasst worden sind, ohne dass 
sie im Fokus des Vorhabens standen. Nur zur internen Nutzung bestimmt, fanden 
und finden sie keinen Weg in die Öffentlichkeit. Das kann ich zumindest aus 
eigener Erfahrung berichten.

Ich würde mich über zahlreiche Rückmeldungen und Weiterverbreitung des Aufrufs 
sehr freuen.

Mit freundlichen Grüßen

Sebastian Mangold
für das DFG-Koordinierungsprojekt zur Weiterentwicklung von Verfahren der 
Optical Character Recognition (OCR)


Sebastian Mangold M.A.
 
Bayerische Staatsbibliothek
Digitale Bibliothek / Münchener Digitalisierungszentrum (MDZ)
Ludwigstraße 16
80539 München
 
Tel +49 89 28638 2752
Fax +49 89 28638 2672
E-Mail: Sebastian.Mangold@xxxxxxxxxxxxxxx
 
http://www.bsb-muenchen.de



Listeninformationen unter http://www.inetbib.de.