[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: (Fwd) Re: Anreicherung von Katalogen / dandelon.com



Bernhard Eversberg wrote:

On 23 Jun 04, at 18:53, Walther Umstätter wrote:



Nichts gegen Bardot, aber in allen statistischen Fragen Sagen Computer grundsätzlich nur vielleicht.



Nein! Auch dies ist wieder eine euphemistisch-metaphorische Sichtweise.
Sie geben Zahlen aus, und der menschliche Betrachter interpretiert diese als "vielleicht". Das ist was anderes! Die Zahlen ergeben sich in jedem Fall aus einer langen Sequenz von Ja-Nein-Entscheidungen, das "vielleicht" ergibt sich erst auf einer höheren Ebene außerhalb des Rechners. Und wenn man einprogrammiert, dass er innerhalb bestimmter Grenzen eben das Wort "vielleicht" ausgeben soll, heißt das noch keineswegs, dass er was verstanden hat. Er hat nur die Frage, ob der Wert zwischen den Grenzen liegt, beantwortet, und zwar mit "ja".


Das ist richtig. Statistik hat mit begrifflichem Verstehen nichts zu tun.
Man muss aber erkennen, dass ein Ja/Nein auf mikroskopischer Ebene, auf allen höheren Ebenen
(z.B. bei großen Zahlen oder Mengen) ein zunehemendes Vielleicht bedeutet,
bis hin zum völlig unbestimmten Unendlich. Das ist weit mehr Realismus als Euphemismus.


Ansonsten lässt sich der Paradigmenwechsel vom Determinismus des Laplaceschen Dämons,
hin zu dem rein wahrscheinlichkeitstheoretischen des Maxwellschen Dämons nirgends so genau verfolgen,
wie in der Informationstheorie, die ja auf den Erkenntnissen zur Entropie beruht.


... und ganz falsch benannt ist, weil sie sich eben nicht mit Information im landläufigen Sinne befasst, sondern mit der Übermittlung von Nullen und Einsen und den dabei auftretenden Fehlern. Eins der schlimmsten Beispiele fuer eine euphemistische Metapher.


Das ist richtig. Die Informationstheorie beschäftigt sich mit dem wissenschaftlich fundierten Informationsbegriff,
nicht mit landläufigen Homonymen.


... können Indexierer, mit einem guten Thesaurus das semantische Problem durchaus abmildern,
wenn sie im Thesaurus eine klare Begrifflichkeit schaffen und,
gleichgültig ob ein Autor von einem Register, einem Index, einem Inhaltsverzeichnis,
einer Wortliste, einer Datei oder einem Directory schreibt,
"inverted file" indexen, wenn es sich um einen solchen handelt.


Das ist ein wichtiger Teil der Qualitätssicherung in Bildung und Wissenschaft,
um die sich Bibliotheken schon immer gekümmert haben,
wenn sie inhaltlich (also begrifflich) zusammengehöriges auswählten und zusammenbrachten.



So ist es. Anreicherungen der beschriebenen Art können das unterstützen, aber sie erhöhen neben dem recall leider auch die imprecision. Doch Google-gegerbte Sucher kennen es nicht anders.


Das führt aber zu der Überlegung, dass man in angereicherten Katalogen unbedingt die Möglichkeit braucht, die "normalen" Titelaufnahmedaten und Schlagwörter getrennt abfragen zu können, und daß diese auch nicht qualitiativ nachlassen dürfen. Sonst würde man bei Millionenmengen zu oft mit allzu großen Ergebnismengen überschüttet, wenn man nur den einen Einwurfschlitz für undifferenzierte Wortmünzen hätte.

MfG B.E.



Genau desswegen sehe ich im Moment auch keine wirklich tragfähige Alternative zu XML,
wo man über entsprechende DTDs einerseits wie bisher Felder für Titelaufnahmen, Schlagwörter etc.
einrichten kann, und andererseits Semiotik bzw. Begrifflichkeit über Metadaten mit einbringt,
die sich an Ontologien oder semiotische Thesauri knüpfen lassen.


MfG

Umstätter


Listeninformationen unter http://www.inetbib.de.