[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Dublin Core + Staatsknete



Vorsicht, laengliche Botschaft (160 Zeilen)! Es muesste aber noch viel
mehr gesagt werden.

Die Kollegen Hilberer und Jochum haben eine Reihe von Bemerkungen ueber
"Dublin Core" gemacht, die mich zu den folgenden Ergaenzungen stimulieren.
Vorausschicken will ich aber, dass ich die Skepsis ueber weite Strecken
teile und selber keine "Aktien" in DC habe.
Meine Bemerkungen fuehren noch nicht zu einem schluessigen Urteil,
sondern sollen vielmehr zur weiteren Aufhellung der Hintergruende und
als zusaetzliche Denkanstoesse dienen und vielleicht fuer Aha-Erlebnisse
sorgen. Natuerlich sind meine Einschaetzungen bibliothekarisch eingefaerbt,
dafuer bin ich zu lange mit Format- und Regelwerksfragen beschaeftigt.

Die CD-Initiative entstand unter dem Eindruck, dass die Internet-
Suchmaschinen hinsichtlich Praezision der Ergebnisse sehr zu wuenschen
uebrig lassen.
Man wollte mit moeglichst geringem Aufwand etwas tun, um die Chancen zu
verbessern, im Internet relevante Ressourcen zu entdecken. "Resource
Discovery" heisst das Schlagwort. Nun sind Ressourcen weit vielfaeltiger als
nur elektronische Aequivalente von papierenen Dokumenten. Das Verdienst der
DC-Initiative besteht darin, zunaechst einmal einen Konsens zwischen Ver-
tretern der verschiedensten "Communities" zustande gebracht zu haben, dar-
unter Leute aus Archiven, Museen, verschiedensten Dokumentationsstellen.
Den meisten waren die bibliothekarischen Metadaten-Standards (AACR und
USMARC oder UNIMARC) unbekannt, und Standards solchen Umfangs und solcher
Detaillierung erschienen als undurchsetzbar. Der Konsens bestand aus 13,
spaeter 15 Datenelementen, die man fuer unabdingbar hielt, und diese
Liste erhielt den Namen "Dublin Core", weil sie zuerst in einer Bar in
Dublin Ohio auf einer Serviette notiert wurde. Dass ein solcher Name, der in
der Tat, wie Hilberer bemerkt, ueber die Sache selbst nichts aussagt, sich
in dieser Weise etablieren konnte, mag man erstaunlich finden. Es koennte
ein Symptom dafuer sein, dass man sich fuer das unentwirrbare Internet-
Chaos eine "Loesung" nach Art des Gordischen Knotens erhoffte: anstatt aus
den voluminoesen bibliothekarischen Standards, die zugegebenermassen einigen
historischen Ballast mitschleppen, in der Sache aber fundiert sind, einen
Minimalstandard auszudestillieren, setzte man eine Liste dagegen, die sich
als von bibliothekarischem Sachverstand so gut wie ungetruebt erwiesen hat.
Und suggerierte damit den Zuschauern und den Entscheidungstraegern (!), dass
die bibliothekarischen Standards nichts taugten oder unnoetig seien.

Man bedenke aber: da, wo jetzt "Dublin Core" ist, da war vorher einfach
ueberhaupt kein Standard, und bei den Produzenten der Ressourcen befand sich
auch kaum einschlaegige Erfahrung. Nach meinen Eindruecken denkt wirklich
ausnahmslos jeder, der erstmals mit bibliothekarischen Regeln und Formaten
konfrontiert wird, das muesse doch alles viel viel einfacher zu machen sein.
Die wahren Probleme werden nicht gesehen oder gewaltig unterschaetzt, die
Erfolgsaussichten immens ueberschaetzt. Wenn das irgendwann daemmert, laesst
man die heisse Kartoffel sang- und klanglos in der Versenkung verschwinden.
Davon zeugen auch zahllose Versuche an Hochschulinstituten, die Instituts-
bibliothek durch einen studentischen Hiwi mal schnell auf den Rechner
bringen zu lassen, mit untauglichsten Methoden und ohne Ruecksprache mit
irgendwem, der davon was verstehen koennte. Ueber Misserfolge wird ja leider
nicht geredet, schon gar nicht publiziert...

Die Welt der Buecher ist kompliziert, weil erstens das darin angesammelte
Wissen kompliziert ist und zweitens die menschlichen Beziehungen kompliziert
sind, in deren Zusammenhang die Aufzeichnungen erfolgen. Dass unsere Regeln
kompliziert sind, ist eine notwendige Folge. Eine andere Folge ist z.B.,
dass man CIP-Aufnahmen nicht von den Verfassern oder Verlegern der Doku-
mente anfertigen laesst, sondern dass dies nationale Agenturen tun.
Metadaten in E-Dokumenten sind von der Intention her durchaus mit CIP-
Aufnahmen zu vergleichen, eine Erstellung durch irgendwelche zentralen
Einrichtungen wird aber nicht nur abgelehnt, es erscheint schlicht undurch-
fuehrbar. Die Verfasser muessen die Metadaten selber machen, sonst wird
niemand sie machen koennen. Das ist der begrenzende Faktor, aber WIE eng
die Grenzen des Erfolgs dadurch werden, ist noch wenigen klar.
Andererseits stehen dadurch auch die Scheunentore fuer jede Art von
Missbrauch weit offen, man denke an das "index spamming", das Anfuellen
des META tags DC.Subject mit allerhand wenig relevanten Wörtern, evtl.
sogar in zigfacher Wiederholung. Es gibt Leute, die verkaufen Tricks, mit
denen man seine Web-Seiten in Suchdiensten ganz nach oben bringen kann...

Wenn nicht nur Buecher, sondern Dokumente im weitesten Sinne zu erfassen und
zu beschreiben sind, KANN das nicht einfacher zugehen als in Bibliotheks-
katalogen. Wer diese simple Erkenntnis ignoriert, muss Lehrgeld bezahlen,
und nicht selten wird das leider "Staatsknete" sein.
Fuer die DC-Gemeinde besteht das zur Zeit darin, dass die DC-Daten
von Suchmaschinen-Betreibern noch mit grosser Skepsis behandelt werden, wenn
sie denn ueberhaupt zur Kenntnis genommen werden. (Warum man sich nicht
gleich am Anfang mit solchen Betreibern ins Benehmen gesetzt hat, um zu
ergruenden, was denn wuenschenswert und nuetzlich sein koennte, das ent-
zieht sich meiner Kenntnis. Vielleicht wurde es sogar versucht.)
Allerdings darf man nicht zuerst und hauptsaechlich auf die grossen, allge-
meinen Suchmaschinen schauen und dort Verbesserungen erwarten. Dies sind
kommerzielle Dienste, die sich aus Werbeeinnahmen finanzieren, nicht aus
"Staatsknete", man vergesse das nie! Die Zielrichtung Nummer 1 ist das
Alltagsleben, obenan Freizeit und Unterhaltung, nicht Wissenschaft.
(Ganz interessant: Fireball zeigt an, welche Suchwoerter in den letzten
24 Stunden am haeufigsten eingegeben wurden:
http://www.fireball.de/term.html)
Bei Fireball hat man dennoch einiges in die Metadaten-Auswertung investiert,
und dies auch dokumentiert: http://www.fireball.de/meta_daten.html
Man sieht dort, was fuer eine bunte Vielfalt es gibt - u.a. DC-Tags.
Es wird sogar ein Meta-Generator bereitgestellt. Dieser erstellt Tags, die
mit DC nicht kompatibel sind, d.h. sich nicht alle in DC abbilden lassen.
(  http://www.fireball.de/metagenerator.html  )
Auffaellig: es fehlt JEDE Empfehlung, in den einzelnen Feldern bestimmte
Formalien einzuhalten (d.h. keine Ansetzungsregeln!) Unter "Autor" kann
jemand also "Fritz Mueller" genauso wie "Müller,F" oder "Müller, Fritz"
oder ... eingeben.
Auf einem Vortrag kuerzlich in Berlin enthuellte freilich der Fireball-Chef,
Oli Kai Paulus (http://hiphop.cs.tu-berlin.de/~okp/), man stelle in der
Zugriffsstatistik ein sehr geringes Interesse an Metadaten fest.

Es sind Unternehmungen der fachspezifischen Art, und Dienste wie das "Nordic
Metadata Project", der "Deutsche Bildungsserver", oder in England "ROADS",
wo sich Verbesserungen zuerst zeigen sollten.

Ueberzeugende Beweise, dass DC die eingangs beschriebene Misere loesen kann,
stehen noch aus. Man mag das als einen Fall von "Henne und Ei"-Problem sehen
(solange noch zu wenig DC-Daten da sind, nuetzen sie nichts, und weil sie
noch nichts nuetzen, macht kaum einer welche). Die wenigen aber, die man
schon finden kann, lassen recht schnell erkennen, dass die Qualitaet der
erreichbaren Resultate (Praezision!) bei nuechterner Analyse hinter den
Erwartungen zurueckbleiben muss - so schlecht und uneinheitlich sind die
Daten. Kein Wunder, denn DC enthaelt so gut wie keine Ansetzungsregeln.
Ohne solche wird das Chaos nur leicht gemildert. Das wurde von Bibliothekaren
schon hier und da in Diskussionen angemerkt, einige hatten es vorausgesehen,
aber sie konnten es nicht rueberbringen.

Der einzige schon einigermassen fixierte Level des DC ist "DC Simple".
Die Verfasser jenes Dokuments wissen, dass es beiweitem nicht ausreicht,
um ueberzeugende Resultate zu erreichen. Die Magie des Wortes "Simple" ver-
heisst jedoch schnelle, muehearme Erfolge. Man wird erkennen, dass dieses
"simple" mit "schlicht" uebersetzt werden muss, und dass schlichte Daten
eben in den gewaltigen Mengen, um die es geht, keine durchschlagenden
Verbesserungen erbringen KOENNEN sondern eben nur geringfuegige Milderungen.
Weil aber ein mehr ins Detail gehender Level noch nicht existiert, kann
man DC zur Zeit kaum gewinnbringend einsetzen, es sei denn innerhalb
einigermassen geschlossener Communities, wo man in der Regel dann noch eigene
Spezifikationen hinzufuegt. Dann ist es nicht mehr DC Simple, und damit ist
es nicht mehr Standard, sondern weicht von allen anderen Anwendungen ab.
Zur Zeit ist infolgedessen eine Aussage wie "Metadaten nach Dublin Core
vorhanden" nicht viel wert.

Wenn es irgendwann gelingt, einen hinreichend detaillierten DC-Standard
zu erstellen, wird dieser nicht weniger umfangreich sein koennen als AACR
plus USMARC. (Wenn man das Heil in SCHEMEs sucht, ist man de facto schon
an dem Punkt angelangt, denn die einem SCHEME entsprechenden Daten koennen
ja nur unter Anwendung des zugehoerigen Regelwerks entstehen.) Sobald mehrere
SCHEMEs zum Einsatz kommen, sind DC-Daten schon jetzt alles andere als
"simple", wenn man sie nutzbringend verwerten will.

Ein Wort noch zur Codierung in HTML-Dokumenten. Die Elemente mit HTML-Tags
zu kennzeichnen ist zwar fuer Web-Programmierer die natuerlichste Sache der
Welt. (Vielleicht ist ihnen deswegen nichts anderes eingefallen. Eine sach-
liche Notwendigkeit, es so zu machen, besteht jedenfalls nicht.)
Diese Methode ist jedoch grob ineffizient. Man sieht das schon daran,
dass die Metadaten, wenn auch noch mit SCHEMEs u. dgl. gearbeitet wird,
mehr aus Tags als aus Daten bestehen. Wenn wir so etwas in OPAC-Datenbanken
machen wuerden!

Zum Schluss eine wahre Anekdote.
1996 hatte ich das Vergnuegen, mit mehreren Exponenten der Metadaten-Szene
in Goettingen zusammenzutreffen. In einer Studentenkneipe kam die Sprache
auch auf die Frage, wo denn schon nennenswerte Verwertungen von DC-Daten
zu beobachten seien. Die einzigen Versuche, die man nennen konnte, bestanden
in einer schlichten Verstichwortung des gesamten META-Bereichs im HTML-
Header. Darauf meinte ich, dazu brauche man keinen Dublin Core mit 15
Elementen, dazu koennten wir einen "Goettinger Kern" mit nur EINEM Element
andenken. Leider versaeumten wir, den neuen Entwurf auf einem Bierdeckel zu
skizzieren, und so geriet dieser Ansatz zu einer durchgreifenden
Simplifizierung wieder in Vergessenheit. Beim META-LIB-Treffen sollte ihn
jemand erneut auf den (Bier-)Tisch bringen.


MfG  B.E.


Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329,
D-38023 Braunschweig, Germany
Tel.  +49 531 391-5026 , -5011 , FAX  -5836
e-mail  B.Eversberg _at__ tu-bs.de


Listeninformationen unter http://www.inetbib.de.