[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Texterkennung von Frakturschriften



Das Digitalisierungszentrum der SUB Goettingen (GDZ) beschaeftigt sich 
als ueberregionales Service und Kompetenzzentrum fuer retrospektive 
Digitalisierung im Auftrag der Deutschen Forschungsgemeinschaft u.a. 
auch mit der Frage der automatisierten Erkennung von Frakturschrift.

Um es gleich vorwegzunehmen: Nach eingaengiger Pruefung von mehr als 12 
OCR-Programmen (u.a. Omnipage, TextBridge, OPTOPUS, Recognita, 
CuneiForm, ProLector, FineReader) hier nochmals die bereits auf den 
Workshops der Digitalisierungszentren in Goettingen und Muenchen und 
auch sonst unseren Besuchern immer wieder mitgegebene Botschaft:
***********
ein OCR-Programm, das Frakturschriften unterschiedlicher Werke aus 
unterschiedlichen Zeitraeumen automatisiert erkennt, OHNE dass ein 
hoher Korrekturaufwand erforderlich ist, gibt es z.Zt. (noch) NICHT!
****************

Was gibt es aber: 
1) Programme, die man - mehr oder weniger ausgefeilt - trainieren 
kann (z.B. FineReader, ProLector...). Dieses Training arbeitet jedoch 
zumeist mit dem Vergleich von sog. Bitmustern der einzelnen Zeichen. 
Bei der grossen Varianz bereits eines einzelnen Zeichens in einem Buch 
kommt ein Trainingsprogramm hier schnell an seine Grenzen. Die 
Ausweitung auf ein zweites Buch macht dann bereits wieder ein 
erneutes Training erforderlich.
Fazit fuer 1): diese Programme sind fuer automatisierte 
Frakturerkennung ohne zukuenftige Zusatzmodule nicht einsetzbar

Zur Firma WiSenT: hier beschaeftigt sich eine Firma heute tatsaechlich 
intensiv mit der Frage der automatisierten Erkennung von 
Frakturschriften und diese Tatsache an sich ist bereits 
anerkennenswert, da die meisten anderen Softwarehaeuser hier keinen 
Markt fuer Entwicklungen sehen und dementsprechend auch nicht 
investieren wollen.

Das Problem waere aber technisch gesehen in den Griff zu bekommen und 
das GDZ versucht hier, u.a. mit der Fa. WiSenT im Interesse 
zahlreicher laufender und zukuenftiger Digitalisierungsprojekte, eine 
Loesung zu finden. Wie koennte diese Loesung aussehen (nur ganz grob 
umrissen):
Zunaechst bedarf es der Sammlung einer moeglichst grossen Menge 
unterschiedlichster Frakturfonts. Diese Fonts muessten 
daten(bank)technisch aufbereitet und eine Art Frakturalphabet 
erstellt werden. Idealerweise waere noch die Hinterlegung 
eines sprachhistorischen Woerterbuchs anzustreben, unterteilt in 
diachronisch (sprachhistorisch) sinnvolle Sequenzen. Man muesste dann 
bei der Erkennung eines bestimmten Werkes einige 
Voreinstellungen im Programm vornehmen z.B. (Auswahl Frakturfont und 
Woerterbuch 2. Haelfte 18. J. bis 1830).

All dies hoert sich in der Theorie leichter an als das es in der 
Praxis tatsaechlich so einfach umzusetzen waere!

Die Fa. WiSent scheint es immerhin ohne sprachhistorisches Woerterbuch 
geschafft zu haben, nach 2-3 Seiten Training eines Buches 
Erkennungsraten zu erreichen, die ueber 95% liegen. Fuer die SUB 
Goettingen wurde so u.a das Gesamtregister fuer die Goettingischen 
Gelehrten Anzeigen (GGA) mit insgesamt ca. 10.000 Seiten 
volltexterfasst.

Zum Abschluss nur soviel: wir werden weiterhin versuchen, moeglichst 
mit Hilfe der Deutschen Forschungsgemeinschaft, ein Tool fuer die 
breite Nachnutzung im akademischen Umfeld (Bibliotheken, 
Universitaetsinstitute, MPIs etc.) in absehbarer Zeit zur Verfuegung zu 
stellen. Solch ein Toll sollte es zumindest ermoeglichen, einen 
maschinenlesbaren Volltext aus Frakturschriften (zunaechst 18./19. 
Jahrhundert) automatisiert - OHNE nennenswerte Nachkorrektur - zu 
generieren, den man Benutzern zumindest im Hintergrund fuer eine 
Volltextrecherche zur Verfuegung stellen kann - am Bildschirm wuerde 
weiterhin die Originalseite als Image (Grafikdatei) angezeigt.

Heutige Preise fuer die Volltexterfassung von Frakturschriften, die 
zumeist auf ein Abschreiben hinauslaufen, liegen - je nach 
Erkennungsgenauigkeit zwischen 2,50 DM und 25,00 DM (+MwSt.) pro 1000 
Zeichen, wobei nach meiner Auffassung - von Spezialproblemen bei 
Originalvorlagen abgesehen - ein Preis zwischen 7.50 und 10,00 DM 
schon die absolute Obergrenze bilden muesste.

Wir verwenden im GDZ uebrigens das russische Programm FineReader, das 
auf unsere Anregung hin mittlerweile in einer ganzen Reihe von 
Digitalisierungsvorhaben sowie bei Dienstleistern verwendet wird.

Es gaebe hier noch wesentlich mehr zu sagen (schreiben), Interessierte
moegen sich einfach an das GDZ wenden.

Viele Gruesse aus Goettingen
Norbert Lossau


On 19 Jan 00 at 16:58, Klaus Graf wrote:

> From:          Klaus Graf <graf _at__ uni-koblenz.de>
> To:            Internet in Bibliotheken <INETBIB _at__ ub.uni-dortmund.de>
> Subject:       Re: Texterkennung von Frakturschriften
> Date:          Wed, 19 Jan 2000 16:58:40 -0800
> Reply-to:      Internet in Bibliotheken <INETBIB _at__ ub.uni-dortmund.de>
> Organization:  Universitaet Freiburg

> Dr. Steffen Wawra wrote (15.11.1999):
> 
> > > Wirklich akzeptable Leseergebnisse liefert eigentlich nur die Software
> > > der Firma WiSenT, Potsdam. Diese Software eignet sich besonders fuer
> > > umfangreiche Werke einheitlicher Drucktypen, weil das Einrichten eines
> > > neuen Fonts aufwendig ist.
> > >
> > als ergaenzung dieses hinweises von dr. ecker:
> > 
> > im _bibliotheksdienst_ (1999), heft 12 wird ein aufsatz _ocr fuer
> > frakturschriften: neues aus dem bereich automatischer
> > schrifterkennung_ an hand einer volltexterfassung eines buches
> > aus dem bestand der akademiebibliothek mit der oben
> > beschriebenen software auch die im hintergrund laufenden
> > prozesse beschreiben.
> 
> http://www.dbi-berlin.de/dbi_pub/bd_art/bd_99/99_12_11.htm
> 
> Dieser Artikel ist wenig mehr als Firmenwerbung. Die Bearbeitung dieses
> einen Buchs (450 Seiten) bis zur fertigen WWW-Praesentation hat nach
> Auskunft der Mitverfasserin S. Wuendrich (Fa. Wisent!) nicht weniger als
> 10.000 DM gekostet. Die Angaben ueber die Leistungsfaehigkeit der
> OCR-Erkennung sind in keiner Weise objektiv ueberpruefbar. Auch ich kann
> irgendeinen E-Text ins Netz stellen und behaupten, dass er mittels OCR
> erfasst wurde!
> 
> Hat jemand konkrete Kostenbeispiele fuer OCR einschl. Korrekturaufwand
> bzw. manuelle Texterfassung?
> 
> Klaus Graf
> 
************
Dr. Norbert Lossau
Niedersaechsische Staats- und Universit?tsbibliothek Goettingen
	Leiter G?ttinger DigitalisierungsZentrum GDZ 
	Fachreferent Finnougristik, Finnland, Ungarn
Platz der Goettinger Sieben 1
37073 Goettingen
Tel.: +49 +551/39-5217  Fax. +49 +551/39-5222
WWW: http://www.sub.uni-goettingen.de/GDZ
E-Mail: lossau _at__ mail.sub.uni-goettingen.de


Listeninformationen unter http://www.inetbib.de.