[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[InetBib] ocr fraktur



OCR ist ein weites Thema und Fraktur OCR erst recht. Generell zu sagen, dass die Ergebnisse "schlecht" waeren ist viel zu einfach und auch schlicht falsch.

Ganz kurz:

- Die UB Innsbruck hat nicht mitentwickelt, sondern war Projektkoordinator fuer das EU Projekt METADATA ENGINE (2000-2003), in dem ABBYY eine Fraktur-OCR entwickelt hat (uebrigens auch mit historischem Woerterbuch).

- ABBYY XIX ist m.W. die einzige sogenannte "Omnifont-OCR" (d.h. muss nicht trainiert werden), die bei "Normalfraktur" und verwandten Schriften im Sinne der unten angefuehrten Website (Normalfraktur findet sich unter "andere Schriften") bes. gut funktioniert, die allerdings bei anderen Frakturschriften (bes. solche vor 1850 und solche mit "gotischem Einschlag" wie sie um 1920-1930 sehr verbreitet waren) weniger gute Ergebnisse bringt.

http://www.fraktur.com/

- Ungeschoente Ergebnisse kann man sich kurz auf der unteren Website ansehen, die zwei Beispiele mit mehr als 99% Erkennungsgenauigkeit sprechen fuer sich. Andere Tests haben natuerlich gezeigt, dass z.B. bei Zeitungen die Erkennungsgenauigkeit drastisch sinken kann (schlechte Vorlage, Scan vom Mikrofilm, schwierige Segmentierung, seltene Fraktur fuer Ueberschriften, etc.) M.W. wurde auch die NZZ von Frauenhofer mit Abbyy FR XIX durchgefuehrt (allerdings die Linux-Version).

http://meta-e.aib.uni-linz.ac.at/ocr/ocr.html

- Was die Lizensierungspolitik von ABBYY angeht, so bin ich ebenfalls nicht gluecklich, weil sie eigentlich nicht der ueblichen Vorgangsweise von ABBYY entspricht und sich kontraproduktiv fuer die Verbreitung der OCR auswirkt. Man muss allerdings festhalten, dass man bei groesseren Mengen auf deutlich unter 5 Cent pro Seite fuer die Erkennung sinkt und vergleicht man dies mit den Scanpreisen, dann handelt es sich um recht moderate Preise. Aber natuerlich waere auch ich dafuer, dass man ABBYY ueberzeugen koennte, den FR XIX mit gleicher Preisgestaltung wie die anderen Produkte auszuliefern.

Guenter Muehlberger


--
Günter Mühlberger, Ph.D.
Department for Digitisation and Digital Preservation
University Innsbruck Library
6020 Innsbruck - Innrain 52 - Austria
Phone: ++43-(0)512-507-8454
Fax: ++43-(0)512-507-9842
Email: <guenter.muehlberger@xxxxxxxxxx>
URL: http://www2.uibk.ac.at/ub/dea/



Listeninformationen unter http://www.inetbib.de.