[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[InetBib] Projekt zur Weiterentwicklung von OCR-Verfahren gestartet



Liebe Kolleginnen und Kollegen,

wir möchten Sie auf folgendes Projekt aufmerksam machen:

Projekt zur Weiterentwicklung von OCR-Verfahren gestartet
Das „Koordinierungsprojekt zur Weiterentwicklung von Verfahren der Optical 
Character Recognition (OCR)“ untersucht und beschreibt Verfahren der 
automatischen Texterkennung. Es werden zum einen Konzepte für optimale 
Workflows erarbeitet. Zum anderen sollen eine Standardisierung von 
OCR-bezogenen Prozessen und deren Metadaten erreicht werden. Eines der 
wesentlichen Ziele ist die konzeptionelle Vorbereitung der vollständigen 
Transformation des gedruckten deutschen Kulturerbes (16. bis 19. Jh.) in eine 
maschinenlesbare Form. Durchgeführt wird das Projekt von der Herzog August 
Bibliothek Wolfenbüttel (HAB), der Berlin-Brandenburgische Akademie der 
Wissenschaften, im Besonderen das Deutsche Textarchiv (DTA) in Berlin und der 
Bayerische Staatsbibliothek (BSB) in München unter Beteiligung von Experten, 
Wissenschaftlern und Bibliotheken. 
In den letzten Jahren haben vor allem wissenschaftliche Bibliotheken 
umfangreiche Bestände bilddigitalisiert. Der Zugriff auf den elektronischen 
Volltext ist jedoch oft nicht oder nur in unzureichender Form möglich. Erst mit 
Hilfe von OCR-Verfahren können aus den Bilddaten durchsuchbare Volltexte 
automatisch generiert werden. Die Nutzung dieses Mehrwerts von digitalen 
Volltexten ist in vielen Wissenschaftsdisziplinen, insbesondere im Bereich der 
geisteswissenschaftlichen Forschung heute unverzichtbar. 
In der ersten Phase werden die Projektpartner eine Koordinierungs- und 
Betreuungsstruktur für Projekte der zweiten Förderphase aufbauen. 
Die HAB konzentriert sich im Vorhaben auf das Projektmanagement und die 
-Koordinierung sowie die Nachnutzbarkeit und Ermittlung von Qualitätsstandards 
zur Prüfung der Güte bzw. Genauigkeit von OCR-Verfahren. Ansprechpartnerin ist 
hier Elisa Herrmann (herrmann@xxxxxx). 
In den Arbeitspaketen des DTA werden Standards und Richtlinien für die Bereiche 
Formate, Text- und Strukturgenauigkeit, Referenzkorpora sowie Trainingsmaterial 
konzipiert und erstellt. Darüber hinaus behandeln sie Fragen zu Werkzeugen für 
die Volltexterkennung großer Mengen historischer Werke mittels OCR-Verfahren. 
Ansprechpartner sind hier: Matthias Boenig und Kay-Michael Würzner 
(ocrd@xxxxxxx).  
Die BSB erarbeitet eine Auswahl historischer Textkorpora auf Basis der 
vorliegenden VD-Digitalisierung. Des Weiteren werden bereits etablierte 
Workflows für die OCR-Bearbeitung historischer Texte identifiziert und geprüft, 
um so einen weitgehend standardisierten Workflow zu konzipieren, der 
nachgenutzt und individualisiert werden kann. Im dritten Arbeitspaket 
konzentriert sich die BSB auf die Langzeitarchivierung und Persistenz der 
OCR-Daten. Ansprechpartner ist hier Sebastian Mangold 
(sebastian.mangold@xxxxxxxxxxxxxxx). 
Am Ende des Gesamtvorhabens (einschließlich Phase 2) soll ein konsolidiertes 
Verfahren zur OCR-Verarbeitung von Digitalisaten des gedruckten deutschen 
Kulturerbes des 16. bis 19. Jh. erarbeitet sein. Die Projektdokumentation soll 
Antworten auf technische, informationswissenschaftliche und organisatorische 
Probleme bieten. 
Das Projekt startete am 01.09.2015 und wird von der Deutschen 
Forschungsgemeinschaft (DFG) gefördert. 

Mit freundlichen Grüßen,

Elisa Herrmann 
Projektkoordination OCR-D
Herzog August Bibliothek Wolfenbüttel 
Lessingplatz 1 
38304 Wolfenbüttel 
Tel. +49 5331/808-306 
Email herrmann@xxxxxx

Elisa Herrmann 
Projektkoordination OCR-D
Herzog August Bibliothek Wolfenbüttel 
Lessingplatz 1 
38304 Wolfenbüttel 
Tel. +49 5331/808-306 
Email herrmann@xxxxxx


Listeninformationen unter http://www.inetbib.de.