[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] OCR - Plattform



Lieber Herr Mühlberger,

vielen Dank für Ihre ausführliche Stellungnahme zu unserem Projekt.
Die von Ihnen vorgebrachten Punkte sind von großer Relevanz für unser  Vorhaben 
und werden auf jeden Fall in unsere Überlegungen einbezogen.
Aus unserer Sicht stellt die Möglichkeit der Nachnutzung von lokal erstellten 
Trainingsmodellen ein wichtiges Desiderat dar. Hilfreich wäre es dabei, dass 
alle an einer OCR-Weiterentwicklung Interessierten offen über ihre Erfahrungen 
und Entwicklungen informieren und im speziellen Fall der wissenschaftlichen 
Öffentlichkeit, wo rechtlich möglich, ihre Trainingsmodelle und/oder Ground 
Truth-Daten zur Verfügung stellen. Wir als Koordinierungsprojekt sind dabei 
gern behilflich.

Viele Grüße

Kay-Michael Würzner und Sebastian Mangold
für das DFG-Koordinierungsprojekt OCR-D



Günter Mühlberger <guenter.muehlberger@xxxxxxxxxx> 03.11.2015 12:29 >>>
Liebe KollegInnen und Kollegen,

es ist sehr erfreulich, dass die DFG die Verbesserung der Texterkennung 
historischer Schriften systematisch und auf Jahre hinaus gesichert 
foerdern wird!

Dazu ein paar kurze Ueberlegungen:

a) Die OCR Erkennung der digitalisierten Bestaende (Stichwort: VD16-19) 
ist laengst noch nicht "Standard" in Deutschland. Das bedeutet nicht nur 
fuer den Bibliotheksbenutzer sondern auch fuer die Digital Humanities 
eine wesentliche Einschraenkung ihrer "Handlungsfreiheit". Auch mit 
fehlerhaftem OCR Text lassen sich interessante Forschungsarbeiten im 
Bereich Mediengeschichte, Geschichte, Internationale Beziehungen, Gender 
Studies, Familienforschung, etc. durchfuehren.

b) Open Source oder kommerzielle Loesungen
Wenn es doch nur so einfach waere! Leider machen die Lizenzkosten fuer 
die OCR Erkennung nur einen Teil der Gesamtkosten aus. Das Drumherum, 
das Handling der Dateien, der Betrieb der OCR Server, die 
unterschiedlichen Sprachen, Alphabete, Dokumententypen, Exportformate, 
etc. das sind die eigentlichen Kostentreiber, da mit Personalkosten 
verbunden.

c) Forschung und Produktion
Kommerzielle Loesungen wie ABBYY FineReader liegen auch bei schwierigen 
historischen Texten oftmals jenseits der 80-90% Zeichengenauigkeit. Das 
ist ueblicherweise der Bereich, bei dem ForscherInnen das Interesse an 
der Arbeit verlieren, da es dann aus Sicht der Computerwissenschaften 
fast nur noch um "Engineering" geht, nicht aber um Grundlagenforschung. 
Das "Schicksal" der Open Source Projekte wie Tesseract, Ocropus, etc. 
zeigt, dass auch das Entwicklungsteam von Google einige Jahre benoetigte 
(tatsaechlich wurde Tesseract als Open Source "Google OCR" 2006 
lanciert), um die vorher verwendete Abbyy OCR abloesen zu koennen.
Erwartungen, dass hier die kommenden DFG Projekte, wirklich "alles" 
aendern koennen, waeren aus meiner Warte also unrealistisch, bzw. unfair.

d) OCR Plattform
Da verbesserte OCR Algorithmen fuer historische Schriften in der Regel 
auf maschinenlernenden Ansaetzen basieren (werden), entsteht leider die 
Situation, dass an vielen verschiedenen Stellen "gelernt" wird, d.h. 
Modelle fuer die jeweiligen Dokumente vor Ort erzeugt werden, die dann 
aber nicht oder nur muehsam von anderen "nachgenutzt" werden koennen. 
Aus diesem Grund verfolgen wir in den Projekten tranScriptorium bzw. 
READ die Idee einer Virtuellen Forschungsumgebung zur Texterkennung, bei 
der Texterkennung im Sinne von "Software as a Service" angeboten wird. 
Die dabei entstehenden Ground Truth Daten sollen umgekehrt auch als 
Ausgangspunkt fuer die stetige Verbesserung der zugrundeliegenden 
Software genutzt werden.
Eine fruehe Betaversion (0.6.6.) von TRANSKRIBUS ist online verfuegbar. 
Dort wird auch die in IMPACT weiterentwickelte Frakturerkennung von 
ABBYY als kostenfreier Service angeboten. Die Lizenzkosten werden von 
der Universitaet Innsbruck bzw. im Rahmen vergangener und bestehender 
Projekte uebernommen (ein besonderer Dank geht hier an die SBB als 
Koordinator des EU Projekts Europeana Newspapers). Wer also entweder 
einige Seiten rasch ausprobieren moechte, oder ernsthaft einige 
historische Schriften transkribieren will, findet hier eine allgemein 
zugaengliche Infrastruktur. Fuer Rueckmeldungen zur Verbesserung der 
Plattform sind wir dankbar.

http://transkribus.eu/ 

Benutzeranleitung:
http://transkribus.eu/wiki/ 

Schoene Gruesse,

guenter muehlberger


Message: 1
Date: Mon, 2 Nov 2015 08:58:23 +0100
From: Elisa Herrmann <herrmann@xxxxxx>
To: "Romeyke, Andreas" <Andreas.Romeyke@xxxxxxxxxxxxxxx>
Cc: inetbib@xxxxxxxxxx 
Subject: Re: [InetBib] Projekt zur Weiterentwicklung von OCR-Verfahren
      gestartet
Message-ID: <1325829593-1844@xxxxxxxxxxx>
Content-Type: text/plain; charset="utf-8"

Lieber Herr Romeyken,

(1.) Das  Koordinierungsprojekt baut selbstverständlich auf 
Arbeitsergebnissen  der IMPACT-Projekte auf. Das Projekt ImpactOCR endete 
allerdings 2012,  und einige Fragen von damals sind noch offen.
Im Einzelnen werden im Koordinationsprojekt folgende Ziele verfolgt:
     a) Beschreibung der Grundlagen und Module von OCR-Verfahren
     b) die Entwicklung von Richtlinien, Vorschlägen und Konzepten für die 
Umsetzung in die Praxis
     c)  die Entwicklung eines Masterplans auf der Basis der vorhandenen  
nationalbibliographischen Verzeichnisse und Empfehlungen zu  Projektclustern 
für die Phase 2
     d) Beratung und Koordination der Projekte zusammen mit dem Beirat und 
Experten.

Darüberhinaus  sind Entwicklungen des IMPACT-Programms heute teilweise 
kommerziell  eingebunden und stehen somit nicht mehr Open Source zur 
Verfügung.

(2.) Bereits bestehende  Services und Open Source Angebote (z.B. Software, 
Referenzkorpora) werden  nachgenutzt bzw. fließen in die Überlegungen mit 
ein. Dabei werden kommerzielle Anbieter nicht außer Acht gelassen, um 
gemeinsame Lösungen für die Evaluation und Nachnutzung kommerziell erstellter 
Tools zu erarbeiten. Das entsprechende Informationsangebot  aufrecht zu 
erhalten und zu pflegen ist Ziel dieses Vorhabens, hierfür  wurde ein eigenes 
Arbeitspaket (Nachnutzbarkeit) etabliert.
Die  Anforderungern der DFG nach Interoperabilität, Nachnutzbarkeit,  
Verwendung von Open Source sowie offenen Schnittstellen, modularer  Aufbau 
und nicht zuletzt die Berücksichtigung aktueller Normen und  Standards werden 
erfüllt. Alle durch das Vorhaben zustande  gekommenen Ergebnisse werden der 
Fachöffentlichkeit bekannt gemacht und  stehen zur kostenfreien Nachnutzung 
durch Dritte bereit; dies schließt  die umfassende Dokumentation der 
Ergebnisse mit ein.

(3.) Die Deutsche Forschungsgemeinschaft hat die Projektförderung über einen  
Zeitraum von drei Jahren bewilligt. Die derzeitige Projektphase 1 endet nach 
12  Monaten.

Ich hoffe ich konnte Ihre Fragen damit beantworten.

Mit besten Grüßen,
Elisa Herrmann

Projektkoordination OCR-D
Herzog August Bibliothek Wolfenbüttel
Lessingplatz 1
38304 Wolfenbüttel
Tel. +49 5331/808-306
Email herrmann@xxxxxx 





  Von:   "Romeyke, Andreas" <Andreas.Romeyke@xxxxxxxxxxxxxxx>
  An:   "inetbib@xxxxxxxxxx" <inetbib@xxxxxxxxxx>
  Gesendet:   30.10.2015 9:33
  Betreff:   Re: [InetBib] Projekt zur Weiterentwicklung von OCR-Verfahren 
gestartet

Hallo,

Könnten Sie bitte ff. Fragen beantworten:

1. Inwiefern unterscheidet sich das Projekt von den Zielstellungen von 
ImpactOCR (http://www.impact-project.eu)
2. Inwieweit werden die Ziele des Projektes mit OpenSource-Software 
umgesetzt, bzw. OpenSource-Community eingebunden, bzw. Nachnutzung 
sichergestellt
3. Wie sieht der Zeitrahmen aus?

Mit freundlichen Grüßen
With best regards,

Andreas Romeyke


-- 
Mag. Dr. Guenter Muehlberger
Innsbruck University
Digitisation and Digital Preservation (DEA)
Innrain 52 / 6020 Innsbruck / Austria
Phone: ++43-512-507-8454

http://germanistik.uibk.ac.at/dea/ 
http://www.literature.at/ 



Listeninformationen unter http://www.inetbib.de.