[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Antw: RE: dandelon.com und andere Browser als IE - Nebenschauplatz



Liebe Listenmitglieder!


----
Dr. rer. nat. Helge Knüttel
Fachreferat Medizin, Informationsvermittlung Biomedizin
Universitätsbibliothek Regensburg
D-93042 Regensburg, Germany
email: helge.knuettel@xxxxxxxxxxxxxxxxxxxxxxxxxxxx
phone: ++49 941 944-5937; fax:   ++49 941 944-5938

>>> marlies.ockenfeld@xxxxxxxxxxxxxxxxxx 13.06.2004 18:19:20 >>>
> Es ist wirklich erstaunlich, dass das von Manfred Hauer angesprochene
> Themenspektrum Einbindung von Thesauri usw., also die tatsächlich
> informationswissenschaftlichen Themen anscheinend niemand hier
> interessieren oder zumindest nicht zu Äußerungen veranlassen. Vor den
> Überlegungen über eine Öffnung für breite Benutzergruppen steht für mich
> die Frage der Qualität und Inhalten, nach Precision und Recall, die
> Frage des Zugangs kommt für mich erst danach.

So sekundär sind die Zugangsmöglichkeiten natürlich nicht. Ich hatte (und
habe) damit so meine Probleme, was erstmal verhinderte, daß ich das System
überhaupt testen konnte um zu sehen, was eine "intelligente" Suche denn für
Ergebnisse bringt. Bis jetzt bin ich mir ziemlich sicher, daß nicht alles
funktioniert oder gar überhaupt im Browser sichtbar wird, was programmiert
wurde.

Ich bin sehr offen für neue Recherchemethoden, mein Eindruck bezüglich der
Qualität der Suchergebnisse bei dandelon.com ist aber ambivalent. Zum einen
erhält man Treffer, die man mit einer einfachen Stichwortsuche (auch in den
Inhaltsverzeichnissen) nicht so einfach gefunden hätte. Das soll wohl auch
einer der Vorzüge des Systems sein, den ich sehr anerkenne.

Zum anderen tauchen aber zahlreiche Treffer auf, die total danebenliegen.
Diese haben teilweise eine sehr hohe Relevanz vom System zugewiesen bekommen,
d.h. sie stehen weit oben in der Liste. Solche aus meiner Sicht semantisch
falschen Treffer scheinen teilweise darin begründet zu sein, daß rein formale
Angaben in den gescannten Texten nicht ausgesondert werden, sondern für die
inhaltliche Analyse mit herangezogen werden. Dies ist schon ein klassischer
Nachteil herkömmlicher Stichwortsuchen in unstrukturierten Texten. "Falsche"
Treffer scheinen insbesondere bei einem geringen Textumfang der Scans zu
entstehen.

Beispiele zum Nachvollziehen:

- Suche nach "München": Bereits der vierte Treffer kommt durch den Verlagsort
an diese Stelle, nicht weil sich das Werk mit München befaßt. Andere Treffer
tauchen auf, weil Autoren aus München stammen. Da ist, bei aller sonstigen
Krtitik, ein herkömmlicher OPAC besser.

- Suche nach "Bibliothek": Durch das mitgescannte Barcodeetikett der
besitzenden Bibliothek mit der Aufschrift "Vlbg. Landesbibliothek" der erste
"falsche" Treffer bereits an fünfter Stelle, zahlreiche weitere falsche in den
insgesamt 631 Treffern nicht viel später und aus demselben Grund.

- Suche nach "Bibliothek and Management" liefert 62 Treffer, von denen einige
gut passende zumindest mit einer solch einfachen Stichwortsuche nicht
aufgetaucht wären. Die meisten Treffer aber liegen semantisch daneben, es
fällt mit teilweise schwer zu erklären, wie sie in die Liste kommen. Der erste
Treffer ist die deutsche Übersetzung der "Anglo-Amerikanischen
Katalogisierungsregeln", wohl weil "Library" darin vorkommt und "Leitung"
("Erarbeitet unter der Leitung des ..."). Hat ja noch mit Bibliotheken zu tun,
viele andere Treffer aber nicht.

Ich verspüre angesichts der (für mein Empfinden) vielen falschen Treffer ein
gewisses Unbehagen, was da bei der Suche vor sich geht. Ich bin mir deshalb
auch sehr unsicher, was den Recall angeht. Kann ich mich darauf verlassen, ein
Buch zu finden, von dem ich weiß, daß es vorhanden ist? Wie groß ist der
Aufwand dafür oder ist dafür ein anderes Suchsystem (der herkömmliche Katalog)
zuständig? Was hilft mir denn die "Relevanz" von Treffern, wenn  diese
offensichtlich nur für das System gilt, nicht aber für mich? Mein Eindruck
ist, das System erweitert (auch bei eingestellter hoher Precision) die
eingegebenen Suchbegriffe, liefert so eine umfangreiche Liste, die ich aber
dann ganz durchsehen muß, da die Relevanz als Kriterium nicht taugt und eine
andere Sortierung nicht möglich ist.

Sind das noch Kinderkrankheiten aufgrund eines noch kleinen Korpus an
erfassten Dokumenten oder noch nicht ganz optimierten Suchalgorithmen? Wie
wird das bei einem sehr umfangreichen Korpus aussehen? Verbessert sich dann
mit der Datenbasis auch die Qualität der Recherchen oder ertrinkt man dann in
"falschen" Treffern?

Sehr hilfreich wären Angaben (Umfang, Typ, Herkunft) zu den im System
erfassten Werken auf der Website. Das erleichtert die Beurteilung des
Systemleitung und gibt vor allem Hinweise, was man bei einer "echten Suche"
denn erwarten könnte.

Mein Schluß derzeit: So innovativ wie sich das Projekt gibt, warte ich
freundlich ab, was ein größerer Korpus und ggf. angepaßte Suchalgorithmen
bringen. Ich bin auf alle Fälle sehr gespannt auf die weitere Entwicklung und
wünsche dem Projekt das Beste!

Beste Grüße
Helge Knüttel


Listeninformationen unter http://www.inetbib.de.