[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] Projekt zur Weiterentwicklung von OCR-Verfahren gestartet





 Lieber Herr Romeyke,

das kam in der Nachricht vielleicht nicht ganz klar heraus: Es ist nicht so, 
dass wir "OpenSource nicht gänzlich ausschließen", sondern wir setzen 
OpenSource in den Fokus und schließen kommerzielle Anbieter nicht ganz aus. 

Mit besten Grüßen,
Elisa Herrmann 

Projektkoordination OCR-D
Herzog August Bibliothek Wolfenbüttel 
Lessingplatz 1 
38304 Wolfenbüttel 
Tel. +49 5331/808-306 
Email herrmann@xxxxxx





 Von:   "Romeyke, Andreas" <Andreas.Romeyke@xxxxxxxxxxxxxxx> 
 An:   "inetbib@xxxxxxxxxx" <inetbib@xxxxxxxxxx> 
 Kopie:   Elisa Herrmann <herrmann@xxxxxx> 
 Gesendet:   02.11.2015 9:49 
 Betreff:   AW: [InetBib] Projekt zur Weiterentwicklung von OCR-Verfahren 
gestartet 



 

Sehr geehrte Frau Herrmann,
 
Vielen Dank für die ausführliche Info. Ich fragte deswegen nach, weil 
Bibliotheken und Forschungseinrichtungen zwar Gehirnschmalz in zB. 
Weiterentwicklung von OCR stecken, aber diese Erkenntnisse oft nicht 
nachnutzbar sind. Im Umfeld von ImpactOCR sind einige freie Programme 
entstanden, doch die eigentlichen Verbesserungen was OCR betrifft, flossen in 
proprietäre Produkte, die für viel Geld von anderen Bibliotheken und 
Forschungseinrichtungen wieder eingekauft werden müssen (Beispiel: Abbyy 
Fraktur).
 
Ansonsten freut es mich aber, daß an Impact angeknüpft und OpenSource nicht 
gänzlich ausgeschlossen wird ;)
 

Mit freundlichen Grüßen
With best regards,
 
Andreas Romeyke
--
member “long-term preservation“
 
Saxon State- and University Library Dresden (SLUB)
Department 2 (IT), Division 2.3 (network and data security) 
Zellescher Weg 18 | 01069 Dresden
phone: +49 351 4677 216
E-Mail: Andreas.Romeyke@xxxxxxxxxxxxxxx 
http://www.slub-dresden.de/ | @slubdresden
 



Von: Elisa Herrmann [mailto:herrmann@xxxxxx] 
Gesendet: Montag, 2. November 2015 08:58
An: Romeyke, Andreas
Cc: inetbib@xxxxxxxxxx
Betreff: Re: [InetBib] Projekt zur Weiterentwicklung von OCR-Verfahren gestartet
 
Lieber Herr Romeyken,

(1.) Das Koordinierungsprojekt baut selbstverständlich auf Arbeitsergebnissen 
der IMPACT-Projekte auf. Das Projekt ImpactOCR endete allerdings 2012, und 
einige Fragen von damals sind noch offen.
Im Einzelnen werden im Koordinationsprojekt folgende Ziele verfolgt:
    a) Beschreibung der Grundlagen und Module von OCR-Verfahren
    b) die Entwicklung von Richtlinien, Vorschlägen und Konzepten für die 
Umsetzung in die Praxis
    c) die Entwicklung eines Masterplans auf der Basis der vorhandenen 
nationalbibliographischen Verzeichnisse und Empfehlungen zu Projektclustern für 
die Phase 2
    d) Beratung und Koordination der Projekte zusammen mit dem Beirat und 
Experten.

Darüberhinaus sind Entwicklungen des IMPACT-Programms heute teilweise 
kommerziell eingebunden und stehen somit nicht mehr Open Source zur Verfügung.

(2.) Bereits bestehende Services und Open Source Angebote (z.B. Software, 
Referenzkorpora) werden nachgenutzt bzw. fließen in die Überlegungen mit ein. 
Dabei werden kommerzielle Anbieter nicht außer Acht gelassen, um gemeinsame 
Lösungen für die Evaluation und Nachnutzung kommerziell erstellter Tools zu 
erarbeiten. Das entsprechende Informationsangebot aufrecht zu erhalten und zu 
pflegen ist Ziel dieses Vorhabens, hierfür wurde ein eigenes Arbeitspaket 
(Nachnutzbarkeit) etabliert.
Die Anforderungern der DFG nach Interoperabilität, Nachnutzbarkeit, Verwendung 
von Open Source sowie offenen Schnittstellen, modularer Aufbau und nicht 
zuletzt die Berücksichtigung aktueller Normen und Standards werden erfüllt. 
Alle durch das Vorhaben zustande gekommenen Ergebnisse werden der 
Fachöffentlichkeit bekannt gemacht und stehen zur kostenfreien Nachnutzung 
durch Dritte bereit; dies schließt die umfassende Dokumentation der Ergebnisse 
mit ein.

(3.) Die Deutsche Forschungsgemeinschaft hat die Projektförderung über einen 
Zeitraum von drei Jahren bewilligt. Die derzeitige Projektphase 1 endet nach 12 
Monaten.

Ich hoffe ich konnte Ihre Fragen damit beantworten.

Mit besten Grüßen,
Elisa Herrmann 

Projektkoordination OCR-D
Herzog August Bibliothek Wolfenbüttel 
Lessingplatz 1 
38304 Wolfenbüttel 
Tel. +49 5331/808-306 
Email herrmann@xxxxxx





Von: "Romeyke, Andreas" <Andreas.Romeyke@xxxxxxxxxxxxxxx> 
An: "inetbib@xxxxxxxxxx" <inetbib@xxxxxxxxxx> 
Gesendet: 30.10.2015 9:33 
Betreff: Re: [InetBib] Projekt zur Weiterentwicklung von OCR-Verfahren 
gestartet 
Hallo, 

Könnten Sie bitte ff. Fragen beantworten: 

1. Inwiefern unterscheidet sich das Projekt von den Zielstellungen von 
ImpactOCR (http://www.impact-project.eu) 
2. Inwieweit werden die Ziele des Projektes mit OpenSource-Software umgesetzt, 
bzw. OpenSource-Community eingebunden, bzw. Nachnutzung sichergestellt 
3. Wie sieht der Zeitrahmen aus? 

Mit freundlichen Grüßen 
With best regards, 

Andreas Romeyke 
-- 
member “long-term preservation“ 

Saxon State- and University Library Dresden (SLUB) 
Department 2 (IT), Division 2.3 (network and data security) 
Zellescher Weg 18 | 01069 Dresden 
phone: +49 351 4677 216 
E-Mail: Andreas.Romeyke@xxxxxxxxxxxxxxx 
http://www.slub-dresden.de/ | @slubdresden 


-----Ursprüngliche Nachricht----- 
Von: InetBib [mailto:inetbib-bounces@xxxxxxxxxx] Im Auftrag von Elisa 
Herrmann 
Gesendet: Freitag, 30. Oktober 2015 08:53 
An: inetbib@xxxxxxxxxx 
Betreff: [InetBib] Projekt zur Weiterentwicklung von OCR-Verfahren 
gestartet 

Liebe Kolleginnen und Kollegen, 

wir möchten Sie auf folgendes Projekt aufmerksam machen: 

Projekt zur Weiterentwicklung von OCR-Verfahren gestartet Das 
„Koordinierungsprojekt zur Weiterentwicklung von Verfahren der Optical 
Character Recognition (OCR)“ untersucht und beschreibt Verfahren der 
automatischen Texterkennung. Es werden zum einen Konzepte für optimale 
Workflows erarbeitet. Zum anderen sollen eine Standardisierung von OCR- 
bezogenen Prozessen und deren Metadaten erreicht werden. Eines der 
wesentlichen Ziele ist die konzeptionelle Vorbereitung der vollständigen 
Transformation des gedruckten deutschen Kulturerbes (16. bis 19. Jh.) in 
eine maschinenlesbare Form. Durchgeführt wird das Projekt von der Herzog 
August Bibliothek Wolfenbüttel (HAB), der Berlin-Brandenburgische 
Akademie der Wissenschaften, im Besonderen das Deutsche Textarchiv 
(DTA) in Berlin und der Bayerische Staatsbibliothek (BSB) in München unter 
Beteiligung von Experten, Wissenschaftlern und Bibliotheken. 
In den letzten Jahren haben vor allem wissenschaftliche Bibliotheken 
umfangreiche Bestände bilddigitalisiert. Der Zugriff auf den elektronischen 
Volltext ist jedoch oft nicht oder nur in unzureichender Form möglich. Erst 
mit Hilfe von OCR-Verfahren können aus den Bilddaten durchsuchbare 
Volltexte automatisch generiert werden. Die Nutzung dieses Mehrwerts 
von digitalen Volltexten ist in vielen Wissenschaftsdisziplinen, 
insbesondere im Bereich der geisteswissenschaftlichen Forschung heute 
unverzichtbar. 
In der ersten Phase werden die Projektpartner eine Koordinierungs- und 
Betreuungsstruktur für Projekte der zweiten Förderphase aufbauen. 
Die HAB konzentriert sich im Vorhaben auf das Projektmanagement und die 
-Koordinierung sowie die Nachnutzbarkeit und Ermittlung von 
Qualitätsstandards zur Prüfung der Güte bzw. Genauigkeit von OCR- 
Verfahren. Ansprechpartnerin ist hier Elisa Herrmann (herrmann@xxxxxx). 
In den Arbeitspaketen des DTA werden Standards und Richtlinien für die 
Bereiche Formate, Text- und Strukturgenauigkeit, Referenzkorpora sowie 
Trainingsmaterial konzipiert und erstellt. Darüber hinaus behandeln sie 
Fragen zu Werkzeugen für die Volltexterkennung großer Mengen 
historischer Werke mittels OCR-Verfahren. Ansprechpartner sind hier: 
Matthias Boenig und Kay-Michael Würzner (ocrd@xxxxxxx). 
Die BSB erarbeitet eine Auswahl historischer Textkorpora auf Basis der 
vorliegenden VD-Digitalisierung. Des Weiteren werden bereits etablierte 
Workflows für die OCR-Bearbeitung historischer Texte identifiziert und 
geprüft, um so einen weitgehend standardisierten Workflow zu 
konzipieren, der nachgenutzt und individualisiert werden kann. Im dritten 
Arbeitspaket konzentriert sich die BSB auf die Langzeitarchivierung und 
Persistenz der OCR-Daten. Ansprechpartner ist hier Sebastian Mangold 
(sebastian.mangold@xxxxxxxxxxxxxxx). 
Am Ende des Gesamtvorhabens (einschließlich Phase 2) soll ein 
konsolidiertes Verfahren zur OCR-Verarbeitung von Digitalisaten des 
gedruckten deutschen Kulturerbes des 16. bis 19. Jh. erarbeitet sein. Die 
Projektdokumentation soll Antworten auf technische, 
informationswissenschaftliche und organisatorische Probleme bieten. 
Das Projekt startete am 01.09.2015 und wird von der Deutschen 
Forschungsgemeinschaft (DFG) gefördert. 

Mit freundlichen Grüßen, 

Elisa Herrmann 
Projektkoordination OCR-D 
Herzog August Bibliothek Wolfenbüttel 
Lessingplatz 1 
38304 Wolfenbüttel 
Tel. +49 5331/808-306 
Email herrmann@xxxxxx 

Elisa Herrmann 
Projektkoordination OCR-D 
Herzog August Bibliothek Wolfenbüttel 
Lessingplatz 1 
38304 Wolfenbüttel 
Tel. +49 5331/808-306 
Email herrmann@xxxxxx 


 

 


Listeninformationen unter http://www.inetbib.de.