[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

AW: Antw: RE: dandelon.com und andere Browser als IE -Nebenschauplatz



Liebe Frau Kirn, lieber Herr Knüttel, liebe Listenmitglieder,

Wir vertreten und praktizieren einen evolutiven Ansatz, der sich natürlich
auch an wirtschaftlichen Gesichtspunkten zu orientieren hat. Neben der Rendite
als Verhältnis von Aufwand zum Mehrwert gehört natürlich auch, dass
Entwicklungen und Innovationen den Benutzern möglichst früh als Dienstleistung
angeboten werden. Investitionen sollen sich ja möglichst schnell "rentieren".
Unsere Benutzer honorieren das jedenfalls.
Wir haben mit der Firma AGI ein automatisiertes Verfahren entwickelt, das uns
gestattet, mit einer einzigen Hilfskraft die Inhaltsverzeichnisse des gesamten
relevanten Neuzugangs zu erfassen, einschließlich einer begrenzten
Rückarbeitung (ca. 12000 Titel/Jahr). Dies erlaubt unseren Benutzern,
einerseits die Inhaltsverzeichnisse der einzelnen Titel direkt aus dem Katalog
einzusehen, andererseits die zusätzliche Recherchefunktion über dandelon
(übrigens ein kostenfreies Angebot der Fa. AGI bei Nutzung von
IntelligentCAPTURE, das den automatisierten Input realisiert). Neben der
automatischen Indexierung mittels der CAI-Engine entwickelt vom Insitut für
Angewandte Informationsforschung in Saarbrücken (IAI), wollten wir die
Inhaltsverzeichnisse auch als "Volltext" indexieren, um sozusagen auch die
Stecknadel im Heuhaufen, also auch jeden noch so spezifischen
Individualbegriff bzw Textstring auffindbar zu machen. In dandelon sind also 3
Indexierungskomponenten inkludiert:

-Bibliopgraphische Titelaufnahme (reduziert)
-Automatische Indexierung mit gewichteten Termen (CAI)
-Volltextindexierung

Jede dieser Informationskomponenten hat für die Recherche ihre spezifische
Bedeutung.
Sie müssen im Ranking-Algorithmus allerdings noch optimal abgestimmt werden.
Die Fehler, die angesprochen wurden, gehen allerdings auf einen lapidaren
Programmierfehler zurück, der eliminiert werden wird. An sich müssten die
beanstandeten Titel bereits nach dem derzeitigen Algorithmus ganz hinten
aufscheinen.

Insbesondere auch das Problem der mitgescannten Ortsnamen bei Verlagsangaben
oder sonstiger irreführender Informationen auf dem Titelblatt ist uns
natürlich bekannt und wir planen schon seit längerem solche filternde Tools,
die Sie Herr Knüttel erwähnten, einzusetzen (danke auch noch für Ihren
Hinweis).
Das Schöne ist natürlich, dass, wenn Bestände einmal digital erfasst sind,
Innovationsschritte in jeder Richtung (Automatische Indexierung, Semantik,
Filter..) jeweils rückwirkend über den gesamten bereits erfassten Bestand
automatisch nachgezogen werden können.

Eine ganze Reihe weiterer Innovationen insbesondere auch in Richtung
semantisches Retrieval sind geplant. Beispielsweise soll das Indexat der
automatischen Indexierung in Zukunft natürlich keine reine Aufzählung von
Indexierungstermen mehr sein, sondern selbst ein semantisches Netz darstellen
und davon ausgehend auch natürlichsprachliche Suchanfragen mit hoher Relevanz
beantworten können.
Weiter geplante Innovationen: Singular-Plural-Ergänzung, automatische
Übersetzung der Suchanfrage, Kontextdisambiguierung, verbesserte
Navigation...)

Wir haben dandelon ganz bewußt bereits in diesem frühen Stadium sozusagen noch
nicht voll ausgereift unseren Benutzern angeboten, da der Mehrwert bereits
jetzt exorbitant ist. Ein Hauptproblem von Bibliothekatalogen, nämlich die
äusserst mangelhafte Indexierungstiefe, die sich in einer nicht akzeptablen
Häufigkeit von Null-Treffer-Ergebnissen manifestiert und von
Bibliotheksbenutzer in Zeiten von Google mit Recht einfach nicht mehr
verstanden und akzeptiert wird. Dieses Problem entschärft dandelon trotz der
noch bestehenden Mängel bereits entscheidend. Ich habe es schon erwähnt; die
genauen Titel von Erzählungen, Gedichten etc. in Sammelbänden und
Gesamtausgaben, und sonstige hochspezifische Suchbegriffe sind plötzlich
recherchierbar (ohne Ballast) und direkt auffindbar.

Auch bei allgemeineren Begriffen sind die Ergebnisse nicht so schlecht, wie
dies die angeführten Beispiele suggerieren. Die Tendenz meiner dargelegten und
angestrebten Ranking-Logik ist schon recht gut erkennbar, wird allerdings
durch den benannten Programmfehler gestört.

Zum Abschluss noch eine generelle Bemerkung.
Nach meiner Meinung müssen nicht aufgefundene Dokumente, die relevante
Information zu einer Suchanfrage enthalten, mindestens genauso in die
Bewertung eingehen, wie nicht relevante Treffer. Muss ein Benutzer wirklich
akzeptieren, dass Werke in Sammlungen und Gesamtausgaben nicht aufgefunden
werden können, nur weil sie nicht selbständig erschienen oder das selbständig
erschienene Werk nicht im Bestand ist? Das "Regelwerk" unserer Kunden ist ein
anderes und wir erleben es jeden Tag.
Je geringer die Trefferausbeute bzw die Spezifität der Anfrage desto mehr muss
die Bedeutung des Recalls zunehmen. Ein relevanter Treffer bei einer
Treffermenge von beispielsweise 4 Treffern ist nach meiner Meinung einer
Null-Treffer-Menge eindeutig vorzuziehen. Man könnte beispielsweise auch eine
Variable einführen, die je nach Treffermenge Dokumente nur bis zu einer
definierten Relevanz anzeigt und erst über gezieltes Anklicken von
beispielsweise "weitere weniger relevante Titel" zur Anzeige bringen.

Die Auswertung der Null-Treffer-Anfragen aus den Log-Files ließen uns
jedenfalls schnell erkennen, was für eine Rendite dandelon bereits jetzt zu
erbringen in der Lage ist.
Noch einmal: dandelon ist ein zusätzliches Angebot zum Bibliothekskatalog.

Herzliche Grüße,
Karl Rädler




-----Ursprüngliche Nachricht-----
Von: owner-inetbib@xxxxxxxxxxxxxxxxxx
[mailto:owner-inetbib@xxxxxxxxxxxxxxxxxx] Im Auftrag von Helge Knuettel
Gesendet: Dienstag, 15. Juni 2004 18:04
An: INETBIB@xxxxxxxxxxxxxxxxxx
Betreff: Re: Antw: RE: dandelon.com und andere Browser als IE
-Nebenschauplatz

Liebe/r Frau/Herr Kirn, lieber Herr Rädler, liebe Listenmitglieder!

Helge Knüttel schrieb:
> > Beispiele zum Nachvollziehen:
> >
> > - Suche nach "München": Bereits der vierte Treffer kommt durch den
> > Verlagsort an diese Stelle, nicht weil sich das Werk mit München
> > befaßt. Andere Treffer tauchen auf, weil Autoren aus München
> > stammen. Da ist, bei aller sonstigen Krtitik, ein herkömmlicher OPAC
> > besser.
> >
> > - Suche nach "Bibliothek": Durch das mitgescannte Barcodeetikett der
> > besitzenden Bibliothek mit der Aufschrift "Vlbg. Landesbibliothek"
> > der erste "falsche" Treffer bereits an fünfter Stelle, zahlreiche
> > weitere falsche in den insgesamt 631 Treffern nicht viel später und
> > aus demselben Grund.
>
S. Kirn schrieb:
> Nun, da muss man aber dem Anwender der Suchmaschine eine nicht
> unerhebliche "Mitschuld" ankreiden. Denn die beiden obigen Begriffe
> sind nunmal "Allerweltswörter".
>
> Sie haben vielleicht bei der Suche anhand dieser Stichworte ein
> bestimmtes Ergebnis im Kopf, aber das kann der Rechner niemals
> erraten, da sie dem Rechner nicht alle relevanten Informationen
> mitteilen. Da helfen auch keine noch so ausgefeilten Algorithmen.
> Denn selbst ein Mensch könnte diese Aufgabe nicht erfüllen.
>

Von einer "intelligenten Suche" erwarte ich mir natürlich Treffer, die
inhaltlich dem Suchbegriff entsprechen. Das war eine Prämisse, mit der ich an
die Suche ging. Das ist doch außerdem die Motivation, neue Suchstrategien -
und methoden zu entwerfen.

Wenn ich nach Werken über Bibliotheken recherchiere möchte ich doch nicht den
Gesamtbestand aller Bibliotheken als Trefferliste erhalten, nur weil der
Besitzerstempel oder ein Barcodeetikett mitgescannt wurden (Das ist bei
dandelon natürlich nicht so extrem der Fall!). Das ist ein Fehler der
ausgemerzt gehört. Herr Rädler berichtete, daß bereits daran gearbeitet wird.

Das Problem auf "Allerweltswörter" zu schieben ist mir zu einfach. Eine Stärke
von Systemen wie dandelon ist doch, bei der Eingabe von "Bibliothek" auch
Werke zu finden, die sich inhaltlich damit auseinandersetzen, aber den String
Bibliothek nicht im Titel oder gar nirgends stehen  haben (z.B. weil sie
englisch sind) und außerdem vielleicht auch Werke auszusortieren, die zwar
"Bibliothek" im Text haben, aber inhaltlich nichts damit zu tun haben (weil
dies etwa nur Teil einer Adressangabe ist).

Herr Rädler schrieb ja, daß dandelon an der Vorarlberger Landesbibliothek
neben dem OPAC als _zusätzliche_ Recherchemöglichkeit für die schwierigen
Fälle gedacht ist und daß an der Parametrisierung der Recherche und der
Relevanzsortierung gearbeitet wird. Dann hört sich die von ihm erläuterte
Suchstrategie sehr vielversprechend an.

Vielleicht wir es ja zukünftig bei dadelon bei der Indexierung Mechanismen
geben, Adressen und andere formale Angaben herauszusortieren, die nicht
wirklich zur Inhaltsbeschreibung des Werks beitragen. Die METAe engine
<http://meta-e.aib.uni-linz.ac.at/> soll ja schon einiges bei der Erkennung
solcher Angaben leisten.

Karl Rädler schrieb:
> Mir scheint der Focus insbesondere von Bibliothekaren zu sehr
> "fehlerzentriert" zu sein.  Weniger bis nicht relevante Treffer werden
> tendenziell höher bewertet als die vielen relevanten, die sonst nicht
> aufgefunden hätten werden können. Ich glaube, dass das "Ranking" auch
> in dieser Beziehung nachjustiert werden müsste.
>

Vielleicht werden die Chancen der neuen Technologien tatsächlich noch nicht
genug gesehen. Wenn ich mir allerdings schon bei einem kleinen Korpus bereits
aus 631 Treffern die relevanten selbst heraussuchen muß, wie wird es dann erst
mit Millionen von erfaßten Dokumenten? War meine Überlegung. Wenn natürlich
wie angekündigt die Algorithmen optimiert werden, sollten die Vorteile des
Systems mehr zum Tragen kommen. Oder bei anderen Fragestellungen.

Beste Grüße
Helge Knüttel



----
Dr. rer. nat. Helge Knüttel
Fachreferat Medizin, Informationsvermittlung Biomedizin
Universitätsbibliothek Regensburg
D-93042 Regensburg, Germany
email: helge.knuettel@xxxxxxxxxxxxxxxxxxxxxxxxxxxx
phone: ++49 941 944-5937; fax:   ++49 941 944-5938


Listeninformationen unter http://www.inetbib.de.