[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[InetBib] OCR - Plattform



Liebe KollegInnen und Kollegen,

es ist sehr erfreulich, dass die DFG die Verbesserung der Texterkennung historischer Schriften systematisch und auf Jahre hinaus gesichert foerdern wird!

Dazu ein paar kurze Ueberlegungen:

a) Die OCR Erkennung der digitalisierten Bestaende (Stichwort: VD16-19) ist laengst noch nicht "Standard" in Deutschland. Das bedeutet nicht nur fuer den Bibliotheksbenutzer sondern auch fuer die Digital Humanities eine wesentliche Einschraenkung ihrer "Handlungsfreiheit". Auch mit fehlerhaftem OCR Text lassen sich interessante Forschungsarbeiten im Bereich Mediengeschichte, Geschichte, Internationale Beziehungen, Gender Studies, Familienforschung, etc. durchfuehren.

b) Open Source oder kommerzielle Loesungen
Wenn es doch nur so einfach waere! Leider machen die Lizenzkosten fuer die OCR Erkennung nur einen Teil der Gesamtkosten aus. Das Drumherum, das Handling der Dateien, der Betrieb der OCR Server, die unterschiedlichen Sprachen, Alphabete, Dokumententypen, Exportformate, etc. das sind die eigentlichen Kostentreiber, da mit Personalkosten verbunden.

c) Forschung und Produktion
Kommerzielle Loesungen wie ABBYY FineReader liegen auch bei schwierigen historischen Texten oftmals jenseits der 80-90% Zeichengenauigkeit. Das ist ueblicherweise der Bereich, bei dem ForscherInnen das Interesse an der Arbeit verlieren, da es dann aus Sicht der Computerwissenschaften fast nur noch um "Engineering" geht, nicht aber um Grundlagenforschung. Das "Schicksal" der Open Source Projekte wie Tesseract, Ocropus, etc. zeigt, dass auch das Entwicklungsteam von Google einige Jahre benoetigte (tatsaechlich wurde Tesseract als Open Source "Google OCR" 2006 lanciert), um die vorher verwendete Abbyy OCR abloesen zu koennen. Erwartungen, dass hier die kommenden DFG Projekte, wirklich "alles" aendern koennen, waeren aus meiner Warte also unrealistisch, bzw. unfair.

d) OCR Plattform
Da verbesserte OCR Algorithmen fuer historische Schriften in der Regel auf maschinenlernenden Ansaetzen basieren (werden), entsteht leider die Situation, dass an vielen verschiedenen Stellen "gelernt" wird, d.h. Modelle fuer die jeweiligen Dokumente vor Ort erzeugt werden, die dann aber nicht oder nur muehsam von anderen "nachgenutzt" werden koennen. Aus diesem Grund verfolgen wir in den Projekten tranScriptorium bzw. READ die Idee einer Virtuellen Forschungsumgebung zur Texterkennung, bei der Texterkennung im Sinne von "Software as a Service" angeboten wird. Die dabei entstehenden Ground Truth Daten sollen umgekehrt auch als Ausgangspunkt fuer die stetige Verbesserung der zugrundeliegenden Software genutzt werden. Eine fruehe Betaversion (0.6.6.) von TRANSKRIBUS ist online verfuegbar. Dort wird auch die in IMPACT weiterentwickelte Frakturerkennung von ABBYY als kostenfreier Service angeboten. Die Lizenzkosten werden von der Universitaet Innsbruck bzw. im Rahmen vergangener und bestehender Projekte uebernommen (ein besonderer Dank geht hier an die SBB als Koordinator des EU Projekts Europeana Newspapers). Wer also entweder einige Seiten rasch ausprobieren moechte, oder ernsthaft einige historische Schriften transkribieren will, findet hier eine allgemein zugaengliche Infrastruktur. Fuer Rueckmeldungen zur Verbesserung der Plattform sind wir dankbar.

http://transkribus.eu/

Benutzeranleitung:
http://transkribus.eu/wiki/

Schoene Gruesse,

guenter muehlberger


Message: 1
Date: Mon, 2 Nov 2015 08:58:23 +0100
From: Elisa Herrmann <herrmann@xxxxxx>
To: "Romeyke, Andreas" <Andreas.Romeyke@xxxxxxxxxxxxxxx>
Cc: inetbib@xxxxxxxxxx
Subject: Re: [InetBib] Projekt zur Weiterentwicklung von OCR-Verfahren
        gestartet
Message-ID: <1325829593-1844@xxxxxxxxxxx>
Content-Type: text/plain; charset="utf-8"

Lieber Herr Romeyken,

(1.) Das  Koordinierungsprojekt baut selbstverständlich auf Arbeitsergebnissen  
der IMPACT-Projekte auf. Das Projekt ImpactOCR endete allerdings 2012,  und einige 
Fragen von damals sind noch offen.
Im Einzelnen werden im Koordinationsprojekt folgende Ziele verfolgt:
     a) Beschreibung der Grundlagen und Module von OCR-Verfahren
     b) die Entwicklung von Richtlinien, Vorschlägen und Konzepten für die 
Umsetzung in die Praxis
     c)  die Entwicklung eines Masterplans auf der Basis der vorhandenen  
nationalbibliographischen Verzeichnisse und Empfehlungen zu  Projektclustern 
für die Phase 2
     d) Beratung und Koordination der Projekte zusammen mit dem Beirat und 
Experten.

Darüberhinaus  sind Entwicklungen des IMPACT-Programms heute teilweise kommerziell  
eingebunden und stehen somit nicht mehr Open Source zur Verfügung.

(2.) Bereits bestehende  Services und Open Source Angebote (z.B. Software, Referenzkorpora) werden  
nachgenutzt bzw. fließen in die Überlegungen mit ein. Dabei werden kommerzielle Anbieter nicht 
außer Acht gelassen, um gemeinsame Lösungen für die Evaluation und Nachnutzung kommerziell 
erstellter Tools zu erarbeiten. Das entsprechende Informationsangebot  aufrecht zu erhalten und zu pflegen 
ist Ziel dieses Vorhabens, hierfür  wurde ein eigenes Arbeitspaket (Nachnutzbarkeit) etabliert.
Die  Anforderungern der DFG nach Interoperabilität, Nachnutzbarkeit,  Verwendung von Open Source 
sowie offenen Schnittstellen, modularer  Aufbau und nicht zuletzt die Berücksichtigung aktueller 
Normen und  Standards werden erfüllt. Alle durch das Vorhaben zustande  gekommenen Ergebnisse 
werden der Fachöffentlichkeit bekannt gemacht und  stehen zur kostenfreien Nachnutzung durch Dritte 
bereit; dies schließt  die umfassende Dokumentation der Ergebnisse mit ein.

(3.) Die Deutsche Forschungsgemeinschaft hat die Projektförderung über einen  
Zeitraum von drei Jahren bewilligt. Die derzeitige Projektphase 1 endet nach 12  Monaten.

Ich hoffe ich konnte Ihre Fragen damit beantworten.

Mit besten Grüßen,
Elisa Herrmann

Projektkoordination OCR-D
Herzog August Bibliothek Wolfenbüttel
Lessingplatz 1
38304 Wolfenbüttel
Tel. +49 5331/808-306
Email herrmann@xxxxxx





  Von:   "Romeyke, Andreas" <Andreas.Romeyke@xxxxxxxxxxxxxxx>
  An:   "inetbib@xxxxxxxxxx" <inetbib@xxxxxxxxxx>
  Gesendet:   30.10.2015 9:33
  Betreff:   Re: [InetBib] Projekt zur Weiterentwicklung von OCR-Verfahren 
gestartet

Hallo,

Könnten Sie bitte ff. Fragen beantworten:

1. Inwiefern unterscheidet sich das Projekt von den Zielstellungen von 
ImpactOCR (http://www.impact-project.eu)
2. Inwieweit werden die Ziele des Projektes mit OpenSource-Software umgesetzt, 
bzw. OpenSource-Community eingebunden, bzw. Nachnutzung sichergestellt
3. Wie sieht der Zeitrahmen aus?

Mit freundlichen Grüßen
With best regards,

Andreas Romeyke


--
Mag. Dr. Guenter Muehlberger
Innsbruck University
Digitisation and Digital Preservation (DEA)
Innrain 52 / 6020 Innsbruck / Austria
Phone: ++43-512-507-8454

http://germanistik.uibk.ac.at/dea/
http://www.literature.at/


Listeninformationen unter http://www.inetbib.de.