[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Intelligentes Retrieval bei Excite



On Fri, 4 Apr 1997, Wolfgang Binder wrote:


> Lieber Inetbibler,
> 
> die Concept Search von Excite erscheint mir doch so interessant, dass 
> ich kurz berichten moechte, was ich darueber herausgefunden habe.
> Das Verfahren funktioniert so: Unverbunden eingebene Suchbegriffe, 
> z.B. >  elderly people financial concerns  <   werden zunaechst exakt 
> gesucht, aus den gefundenenn Dokumenten werden dann durch 
> statistische Analyse zusaetzliche Begriffe ermittelt, die signifikant 
> haeufiger in diesen vorkommen - in dem genannten Beispiel z.B. "risk". 
> Diese werden in einer Sekundaersuche - vermutlich mit geringerer 
> Gewichtung - mitgesucht. Wenn man so will wird fuer die Suche ein 
> dynamisch erzeugter Thesaurus verwendet.
> Der Effekt ist schwer hieb- und stichfest zu belegen, da es praktisch 
> unmoeglich ist, Treffer zu finden, in denen keiner der Original-
> Suchbegriffe mehr vorkommt. Insofern lassen sich alle Treffer stets 
> auch als Ergebnis einer ODER-Verknuepfung (bzw. fuzzy-AND-Suche) 
> interpretieren. Nimmt man aber das obige Beispiel, so stellt man 
> fest, dass in dem ersten Treffer die Begriffe "financial" und 
> "concerns" gar nicht vorkommen, aber auffallend haeufig der Begriff 
> "risk" (waehrend z.B. der 3. Treffer saemtliche  Originalbegriffe 
> enthaelt). Weiteres Plausibilitaetsargument:  Nach Anklicken der 
> ersten 20 Treffer und (einiger weniger mehr) suchte ich mit    
> >  senior citizens financial concerns  <  und fand unter den ersten 
> 10 Treffern immerhin 7 "followed links", was im Falle einer exakten 
> Suche relativ unwahrscheinlich ist.
> 
> Fazit: Die Concept Search fuehrt zwar im Einzelfall auch zu falschen 
> Treffern - der "erste Treffer" s.o. ist ein solcher - , man findet 
> andrerseits aber viele relevante Treffer, auf die man sonst nicht 
> gestossen waere. Die Zufaelligkeiten einer Stichwortsuche - fuer die 
> in absehbarer Zeit kein Ersatz in Aussicht ist - werden durch 
> intelligentes Retrieval so teilweise kompensiert.

Ich habe mich etwas naeher mit der concept-search-Funktion von Excite
befasst und moechte den positiven Worten W. Binders von letzter Woche
noch einige kritische folgen lassen.


Statistische Methoden sind noch kein concept search. Concept search
wuerde bedeuten, dass m.H. von Thesauri thematisch verwandte Begriffe
gefunden werden, die dann in die Suche mit einbezogen werden bzw. dem
Suchenden zur Erweiterung oder Eingrenzung der Suche angeboten
werden. Excite scheint aber eher co-occurrence-Methoden zu verwenden,
also Begriffe, die haeufig im Zusammenhang, in den gleichen Dokumenten
und in der Naehe der Suchbegriffe auftauchen, zur Sucherweiterung
heranzuziehen. 

Auf den Hilfeseiten (http://www.excite.com/Info/searching.html) oder
der Dokumentation (http://www.excite.com/ice/tech.html) von Excite
gibt es keine Informationen, aus denen die Wirkungsweise der concept
search genau hervorgeht. Die Dokumentation besteht im Wesentlichen aus
Eigenwerbung, wie "wir sind die Groessten, die Schnellsten die Besten
ueberhaupt". 

Zitate: 

"Using our own advanced statistical algorithms, we are able to find
and score documents based on a correlation of their concepts, as well
as actual keywords."

"Excite's proprietary technology, known as Intelligent Concept
Extraction (ICE), bases its relevance ranking on the global
statistical relationship between the concepts in your query and the
concepts found in the pages all across the Web."

"Excite's search engine uses a technology called ICE (intelligent
concept extraction) to learn about the content of the Web. This means
that as Excite indexes pages, it learns what words are related to
other words. As new words or ideas come onto the Web, Excite learns
about them and about their relationship to existing words."


Bei Beispielsuchen ist mir aufgefallen, dass meistens ein einfaches
Aneinanderreihen der Begriffe erheblich mehr Treffer erzeugt als eine
OR-Verknuepfung. Bei einigen, selteneren Suchbegriffen, z.B. 'bulimia
nervosa' bzw. 'ochsenschwanzsuppe rezept' war die Trefferanzahl bei
OR-Verknuepfung und Aneinanderreihung der Begriffe gleich. Das deutet
darauf hin, dass bei der concpt search nicht dynamisch nach Begriffen
gesucht wird, die z.B. haeufig in der Naehe der Suchbegriffe
vorkommen, sondern dass es wohl eher feste Zuordnungen zu den haeufig
vorkommenden Begriffen gibt. Eine solche statische Zuordnung
beschleunigt die Suche. Allerdings dient die concept search durch
Hinzunahme von Suchbegriffen eher der Sucherweiterung als der
Einschraenkung und dies waere besonders bei selten vorkommenden
Begriffen wuenschenswert. Gerade fuer diese scheint es aber keine
Zuordnungen zu geben, dafuer aber fuer ohnehin schon haeufig
vorkommende Begriffe. Das fuehrt dann im Ergebniss zu Treffern in
Millionenhoehe bei Begriffen, die ohne diese Erweiterung schon zu
mehreren tausend Treffern gefuehrt haetten.

Ich habe weitere Probesuchen durchgefuehrt (z.B. mit den Worten Aids
number infected world, einmal einfach so ins Suchfeld eingetragen
(hier wird als default vermultich concept search eingesetzt) einmal
mit + vor jedem Suchbegriff (entspricht vermutlicheiner Boolschen
AND-Verknuepfung) und hatte bei der Boolschen Suche mehr relevante
Treffer unter den obersten 10 als bei der concept search. Dort gab es
allerdings auch 2 relevante Treffer, die bei der Boolschen Suche nicht
auf der ersten Seite angezeigt wurden. In der frueheren Version von
Excite gab es eine explizite Wahlmoeglichkeit zwischen concept search
(default) und keyword search. Diese Option ist von der Suchseite
verschwunden. Concept search wird default angewandt, es wird nicht
erklaert, ob bei der Verwendung Boolscher Operatoren zur keyword
search uebergegangen wird, das vermute ich bloss anhand der
Suchergebnisse.

Der Suchvorgang ist bei Excite alles andere als transparent. Es wird
nicht angezeigt, welche Begriffe fuer die Suche letztendlich verwendet
wurden, noch werden Auskuenfte ueber die Trefferzahlen fuer jeden
Begriff gegeben. Es ist keine aktive Auswahl von weiteren
Suchbegriffen, wie etwa bei den AltaVista LiveTopics, moeglich. Dies
erschwert eine Ueberpruefung der Wirkunsweise der von Excite
angewandten Methode erheblich.

Fuer die Nutzer wirbt Excite mit verbessertem Recall *und*
verbesserter Precision (http://www.excite.com/ice/tech.html). Recall
ist bei Treffern ueber 5 Mio.  bzw. 11 Mio. nicht mehr messbar,
allerdings auch schon nicht mehr bei mehreren hundert oder tausend
Treffern wie bei der Boolschen Suche.  Wesentlicher Faktor ist daher
das Ranking der Ergebnisse. Augenscheinlich ist nur, dass sich die
Anzahl der Treffer gegenueber Boolscher Suche signifikant vergroessert
(auf mehrere Millionen Treffer).

Excite laesst einige wichtige Features vermissen, z.B. 

    - aktive Auswahl von Optionen wie stemming oder query expansion 
      (stemming findet automatisch statt, kann aber nicht abgestellt
      werden) 
    - das Zustandekommen der Ergebnisse ist nicht nachvollziehbar
      (Anzeige aller in die Suche einbezogenen Begriffe einschliesslich 
      der Trefferzahlen) 
    - Anzeige von Dateigroessen, Datum der Indexierung ...



Insgesamt muss gesagt werden, dass das Funktionieren solcher
Retrieval-Konzepte nicht mit wenigen Einzelbeispielen untersucht und
belegt werden kann.

An der UB Lund, NetLab werden im Rahmen des DESIRE-Projektes
umfangreiche Analysen zu den wichtigsten Suchdiensten
durchgefuehrt. Sie sind ueber die Seite

http://www.ub2.lu.se/tk/websearch_systemat.html

erreichbar. Die von mir soeben aktualisierte Excite-Analyse befindet
sich unter:
   
http://www.ub2.lu.se/desire/radar/search-services/excite.html


viele Gruesse

Angela Oehler
z.Zt. UB Lund, NetLab       

P.S. Bei der Beschaeftigung mit Excite ist mir aufgefallen, dass
verschiedene aeltere Seiten (Suchformulare und Hilfeseiten) nicht mehr von
ihren Seiten aus gelinkt sind, aber bei einer Suche dennoch gefunden
werden. Diese Seiten enthalten teilweise veral tete Informationen, wie die
Auswahlmoeglichkeit zwischen concept search und keyword search. Auf meine
Frage an Excite, ob diese Seiten noch aktuell und zitierbar sind,
erreichte mich heute morgen folgende Antwort: 

"It's up to date, HOWEVER, if you can hold off for about a week, there
will be NEW help pages."


Listeninformationen unter http://www.inetbib.de.