[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Suchmaschinen: Test: Google vor Google



Sehr geehrter Herr Umstätter, liebe Inetbibler,

Sie schrieben:

> Google ohne truncation. Ich halte die Suchmöglichkeiten von
> Google für unzureichend, bin aber, wegen des großen
> Datenangebotes trotzdem gezwungen es zu benutzen. Daraus

Googles großer Vorteil ist halt das häufig exzellente Ranking, darüber
muss man gar nicht diskutieren. Da kann nur noch Alltheweb mithalten -
der Rest (von AltaVista über Fireball bis Hotbot) ist praktisch
unbrauchbar. Das Ranking-Verfahren wird aber zunehmend durch
"Ranking-Agenturen" missbraucht, die sich darauf spezialisiert haben,
tausende von Pseudo-Links auf eine Homepage zu setzen, um so künstlich
den Page-Rank-Faktor zu erhöhen. Googles Methoden, solche Pseudo-Links
aufzuspüren werden mit Sicherheit immer besser, doch auch die Methoden
der Ranking-Agenturen werden da immer ausgefeilter.

> ergibt sich für mich die Frage, woran sie sich bei dem einen
> Prozent "der überhaupt verfügbaren Informationen im Internet"
> orientieren und wie diese recall ratio bestimmt worden ist.
> Meine bisherigen Schätzungen haben keinen so geringen Wert
> ergeben.

Ich beziehe mich auf die Studie von Brightplanet aus dem Jahr 2000, die
auch hier in Inetbib schon mehrmals erwähnt wurde. 
Dort wird das "invisible web" - also der Teil des Internet, der nicht
durch Suchmaschinen abgesucht wird (Inhalte aus Datenbanken, dynamisch
generierte Seiten etc.) - mit ca. 550 Milliarden Seiten angegeben.
Siehe:
http://www.brightplanet.com/deepcontent/tutorials/DeepWeb/index.asp
(Meldung dazu bei "Internet Intern" vom 27.7.2000:
http://www.intern.de/news/759.html)
 
> Durch das "Archiv" von Google ist das Problem des
> Verschwindens erheblich gemindert worden.

Kaum - denn das "Archiv" spiegelt ja nur die Version des Dokumentes
wieder, die zuvor von Google indexiert wurde. Bei der nächsten
Indexierung des Dokuments landet dann die bis dahin aktuelle Version im
"Archiv". Je nachdem, wie oft Google eine Seite indexiert ist die
Archiv-Version also manchmal 1 Tag alt und manchmal vielleicht 2 Monate.
Manchmal kann man so in der Tat noch inzwischen gelöschte oder
veränderte Seiten rekonstruieren, aber längst nicht immer. Wenn eine
"File not found"-Seite zwei mal indexiert wurde, ist auch die
Archiv-Version verloren. 

Ein echtes "Archiv" ist da schon die "WayBack Machine"
(http://www.archive.org/). Dort werden viele Versionen einer Homepage
gesichert (ab 1996). Unsere Homepage (http://www.ub.uni-bielefeld.de/)
ist z.B. in 47 Versionen dort gespeichert (die älteste vom 2.1.1997 -
leider keine von 2002). Über dieses Archiv lassen sich dann auch "File
not found"-Seiten zum Teil rekonstruieren (aber auch gibt es keine
Garantie).

Viele Grüße

Sebastian Wolf

-- 
-----------------------------------------
- Sebastian Wolf                        -
- Bibliothek der Universität Bielefeld  -
- Internet-Gruppe                       -
- Tel.: 0521 / 106-4044                 -
- E-Mail: wolf _at__ ub.uni-bielefeld.de      -
-----------------------------------------


Listeninformationen unter http://www.inetbib.de.