[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: ... Mengen", die ich mit Google nicht finden kann



Hallo Liste, hallo Herr Wolf,

>Zehntausende wiss. Arbeiten liegen im PDF oder Postscript vor, die in
>aller Regel weitaus größer als 100 KB sind. Da sich
>Literaturverzeichnisse, Register und andere Anhänge praktisch immer
>am Ende dieser Arbeiten finden, bleiben diese für Google auch immer
>unsichtbar. Selbst wenn die Arbeiten selbst von Google indexiert
>wurden (was längst nicht immer der Fall ist), sind bedeutende Teile
>auf Grund der 101-KB-Grenze nicht über Google durchsuchbar.

Natürlich ist das richtig. Allerdings sind die Arbeiten ja nicht
unauffindbar; wichtige Teile, die am Anfang der Arbeiten (v.a.
Inhaltsverzeichnisse) stehen, werden doch erschlossen. Und deshalb finde ich
die (an sich berechtigte) Kritik am 101K-Limit von bibliothekarischer Seite
doch etwas seltsam, so lange Bibliotheken sich ein ³5K-Limit² bei ihren
Titelaufnahmen setzen und trotz technischer Machbarkeit z.B. keine Daten aus
Inhaltsverzeichnissen erschließen (von Ausnahmen abgesehen).


>Zum "invisible web" noch ein Hinweis auf die Studie von Brightplanet
>aus dem Jahre 2001:
>http://www.brightplanet.com/technology/deepweb.asp
>Nach der Studie enthält das "invisible web" ca. 500 mal so viele
>Seiten wie das "visible web" und existieren mehr als 200.000 Websites
>die man zum "invisible web" zählen kann.
>Wenn man an die tausende von Datenbanken denkt, deren Inhalte
>Internet-Suchmaschinen nicht indexieren können, scheint mir diese
>Aussage nicht einmal übertrieben.

Die gute alte Bright-Planet-Studie...
Diese ist nicht nur fragwürdig, weil sie zweifellos in einem gewissen
Interesse erstellt wurde (Bright Planet bietet schließlich
Invisible-Web-Lösungen an), sondern vor allem wegen der Grundlage, auf der
hier hochgerechnet wird. Schon 2001 gab es deutliche kritische Stimmen dazu,
am prominentesten vielleicht Chris Sherman, Co-Autor von ³The Invisible
Web²:

³These numbers seem exaggerated, as the study equates raw data from
earth-observing satellites and oceanographic measurements with the contents
of text-oriented databases, using the convenient device of simply dividing
the size of the database by the size of an average web page. While raw data
is undoubtedly valuable to some, it is noise to the majority of web users,
and should not be counted in the same way as refined information.²
(Quelle: http://www.guardian.co.uk/online/story/0,3605,547140,00.html)

Aufschlußreich ist hier besonders die Tabelle auf S. 6/7 der PDF-Version der
Bright-Planet-Studie.


Gruß
Dirk Lewandowski


--
Dirk Lewandowski
http://www.durchdenken.de/lewandowski


Listeninformationen unter http://www.inetbib.de.