[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Was Lycos (nicht) findet




A. Eine verbreitete Meinung ist die, dass Lycos u.a. die ersten 20 
   Zeilen indiziert. Dies stimmt nicht mit meinen Beobachtungen 
   ueberein. 
   Nehmen wir z.B. die CUSI-Seite (kombinierter Such- und 
   Nachweisdienst)    http://www.ulysses.net/cusi/cusi.html  .
   Folgende Begriffe aus dem ersten Textblock muessten suchbar sein, 
   sind es aber nicht: comprehensive, ultimate, subject, useful, 
   finding, Yahoo. (Bei CUSI-Chemnitz waeren es z.B. die Begriffe:
   Optionen, einstellbar, Software.)
   Was die Headers (Zwischenueberschriften) betrifft, so wird aus den 
   7 Headers nur ein einziger(!) Begriff indiziert ("Indices").
   Wie sieht es mit der restlichen Indizierung aus? Indiziert sind 
   z.B.:  Nikos, CUI, Veronica, Netfind, WAIS.     Nicht indiziert
   z.B.:  WebCrawler, Galaxy, Clearinghouse, RFC, Factbook.
   Die Auswahl der indizierten Begriffe erscheint willkuerlich, 
   wenngeich sie vermutlich mit der relativen Haeufigkeit der
   Begriffe in der Datenbank zu tun hat. Der Eindruck der Willkuer  
   wird durch die Beobachtung verstaerkt, dass die Indizierung 
   in verschiedenen CUSI-Varianten durchaus variiert: In CUSI EBI 
   ist auch der WebCrawler indiziert, in der Chemnitzer Variante 
   von den oben genannten nur CUI, wobei man sich fragt, wieso 
   gerade dieser Begriff zu der Ehre gelangt.
   Wie verifiziert man vorstehende Aussagen?: durch Sucheingabe von
        "Nikos CUI Veronica Netfind WAIS <Testbegriff>"    bzw.
        "CUSI Suchmoglichkeiten <Testbegriff>"  (fuer die Chemnitzer 
   Variante)
   in dem (von der Homepage ueber "Options" zugaenglichen) 
   Suchmenue mit Search Option "AND". Es laesst sich so leicht 
   feststellen, ob der CUSI-Site in der Treffermenge liegt.
   
   (Eine alternative Erklaerungsmoeglichkeit waere die, dass die 
   fraglichen Begriffe zwar indiziert sind, aber die Suchergebnisse 
   unter der 0.1-Relevanzschranke liegen - dass Lycos sozusagen in 
   die eigene Relevanzfalle tappt. Dagegen spricht, dass bei einer 
   OR-Verknuepfung mit "loose match"- Voreinstellung die zuerst 
   angezeigten, alle Suchbegriffe enthaltenden Treffer nach meinen 
   Beobachtungen stets vollstaendig in der Treffermenge enthalten 
   sind. Die AND-Verknuepfung bewirkt also nur das Weglassen der 
   Treffer mit weniger Suchbegriffen.)   
   
B. Es wundert nicht, dass in Einzelfaellen diese Indizierungspraxis zu
   unbefriedigenden Suchergebnissen fuehrt. Sucht man z.B. mit der 
   Sucheingabe   
        "lycos yahoo cui archie veronica faqs"  
   nach kombinierten Suchmaschinen, so liefert die AND-Verknuepfung 
   beim WebCrawler zum Vergleich 45 vorzuegliche Ergebnisse,
   waehrend Lycos keinen Treffer findet, und auch die ersatzweise 
   durchgefuehrte OR-Verknuepfung foerdert nichts Berauschendes
   zutage .
   Aehnliche Ergebnisse bei der Suchfrage "Internet navigating 
   training": Lycos (4), WebCrawler (74).
   Die Zitatsuche "Matthew Gray growth" ("Measurering the growth of 
   the Web") fuehrt zu keinem Erfolg, da "Gray" indiziert ist, 
   "Matthew" dagegen nicht. 
   
C. Es kommt gelegentlich vor, dass eine Seite nicht ueber die
   Stichwoerter recherchierbar sind, die in der zugehoerigen Summary-
   Results-Anzeige (einzeiligen Kurzanzeige) von Lycos vorkommen
   (die nicht immer mit dem Title des HTML-Formats identisch ist - 
   aber in den folgenden Faellen):
   Die Content-Summary-Liste zu der Sucheingabe "Vorsicht linklist"
   enthaelt den Eintrag "Chaos' links to the world". Die Eingabe 
   "Chaos links world" hat aber keine Treffer.
   Oder: Ueber die exakte Suche "sonstige. software." kann der 
   gleichnamige Titel nicht ermittelt werden. Diesen findet man 
   z.B. ueber die Suchbegriffe "simulink informationen."
   (Die Sucheingaben "links" und "sonstige." fuehren einzeln zu 
   Treffern, sind als keine Stopwoerter.)

D. Ich moechte klarstellen, dass ich die Suchmaschine Lycos nicht 
   nicht nur nicht "schlechtreden" moechte, sondern sie ganz im 
   Gegenteil - richtig eingesetzt - fuer ausserst nuetzlich halte.
   Die Sucheingabe "GNA" liefert 14-mal so viele Treffer wie der 
   WebCrawler. Und wer bei der Suche nach dem Informationsdienst 
   DINO auf Dinosaurier-Referenzen verzichten moechte, wird die 
   Moeglichkeit der exakten Suche zu schaetzen wissen ("dino.").
   
   Als Bonbon fuer den geduldigen Leser abschliessend noch ein Trick
   zur Simulation von logischen Klammern (in einem einfachen Fall) in
   Lycos, wobei mehrere Funktionalitaeten ausgenutzt werden:
   Um den Boole'schen Suchausdruck
                  warming AND (oceans OR atmosphere)
   zu realisieren, gibt man                           
                   warming warmin$ oceans atmosphere
  ein und waehlt als Search Option "match 3 terms". 
  (Der Term  warmin$  simuliert fuer das System den fuer den Trick 
  notwendigen vierten Suchbegriff.)        

zu A-C:  Rueckschluesse aus Beobachtungen auf die Indizierung sind
natuerlich immer hypothetisch. Daher freue ich mich auf kritische 
Kommentare hierzu. Entscheidender sind die Beobachtungen selbst - 
nach dem Motto "nichts glauben, was man nicht selbst ausprobiert hat". 



binder _at__ ub.uni-bielefeld.de                  W. Binder


Listeninformationen unter http://www.inetbib.de.