[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: ... Mengen", die ich mit Google nicht finden kann



Hallo liebe Inetbibler,

Dirk Lewandowski schrieb am 25 Jun 2004 um 15:08:

> Das Dokument ist für Google einfach zu lang, denn Google indexiert nur
> ca. 100 KB jedes Dokuments. Dieses ist jedoch weit größer. Vorhanden

Gerade diese 101-KB-Grenze ist ein gutes Beispiel dafür, dass
Internet-Suchmaschinen eben nicht alles abdecken und finden.

Zehntausende wiss. Arbeiten liegen im PDF oder Postscript vor, die in
aller Regel weitaus größer als 100 KB sind. Da sich
Literaturverzeichnisse, Register und andere Anhänge praktisch immer
am Ende dieser Arbeiten finden, bleiben diese für Google auch immer
unsichtbar. Selbst wenn die Arbeiten selbst von Google indexiert
wurden (was längst nicht immer der Fall ist), sind bedeutende Teile
auf Grund der 101-KB-Grenze nicht über Google durchsuchbar.

Zum "invisible web" noch ein Hinweis auf die Studie von Brightplanet
aus dem Jahre 2001:
http://www.brightplanet.com/technology/deepweb.asp
Nach der Studie enthält das "invisible web" ca. 500 mal so viele
Seiten wie das "visible web" und existieren mehr als 200.000 Websites
die man zum "invisible web" zählen kann.
Wenn man an die tausende von Datenbanken denkt, deren Inhalte
Internet-Suchmaschinen nicht indexieren können, scheint mir diese
Aussage nicht einmal übertrieben.

Viele Grüße

Sebastian Wolf

--
Sebastian Wolf
Universitätsbibliothek Bielefeld, Internet-Gruppe
Tel.: 0521 / 106-4044, E-Mail: wolf@xxxxxxxxxxxxxxxxxxx
URL: http://www.ub.uni-bielefeld.de


Listeninformationen unter http://www.inetbib.de.