[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Google-VK: Ernuechterung



Bevor, Fruehlingserwachen hin oder her, unerfuellbare Bluetentraeume
ins Kraut schiessen, ein paar Hinweise und Hintergruende zur 
theoretischen Machbarkeit eines Google-VK:

1. Google wertet nicht nur das Wortmaterial aus, sondern auch die
   Link-Texte (die blau unterstrichenen Woerter), die eine besondere
   Gewichtung erhalten. Ferner werden Woerter mit grossen Anfangs-
   buchstaben starker gewichtet und solche, deren Schrift relativ
   groesser ist als die Grundschrift des Dokuments.
   Bei der Suche wird ausserdem beruecksichtigt, wie nah zwei
   Woerter beieinander stehen und wie nah am Anfang.
   Alles Massnahmen, die bei Titelaufnahmen nicht anwendbar sind.
   Ohnehin sind ja Titelaufnahmen nur GANZ GANZ knappe Surrogate des
   Dokuments, noch nicht mal Inhaltsverzeichnisdaten stehen drin.
   
2. Es wird ferner eine Art Zitatenanalyse durchgefuehrt: ein
   Dokument erhaelt eine Bewertungsziffer, die sich aus der Anzahl
   der darauf verweisenden Links von anderen Sites ergibt.
   Diese Ziffer geht stark in die "Relevanz" ein, aus der sich die
   Position in der Ergebnisliste ergibt.
   Natuerlich ist das eine recht aufwendige Geschichte, und
   derartiges kann mit Titelaufnahmen nicht veranstaltet werden,
   das ist ganz klar. 

Kurz: Unser Katalogdatenmaterial entbehrt so gut wie jeder Grundlage, 
um mit Google-Methoden wirkungsvoll indexiert zu werden. 
Kataloge und Suchmaschinen sind hinsichtlich Datengrundlage und
Zielsetzungen ganz verschiedene Gebilde, fuer die man jeweils
eigene, spezifische Methoden entwickeln muss.
Ob und wie stark eine pekuniaere Zuwendung die Bewertungsziffer 
verbessern kann, ist nicht so ohne weiteres zu erfahren...

Praktisch angewendet werden die Bewertungsziffern uebrigens auch in
einem Yahoo-aehnlichen System, das bei Google aufgebaut wird,
dem "Google Web Directory":
     http://directory.google.com
Die Datengrundlage dafuer stammt vom "Open Directory Project":
     http://dmoz.org/
     
Waehrend letzteres seine Link-Listen alphabetisch angeordnet zeigt,
bringt Google sie nach "Page Rank" sortiert. Als Beispiel kann man
sich ansehen, wie das Ranking sich auf deutsche Bibliotheken auswirkt,
wenn man diesen Zweig aufsucht:
  World > Deutsch > Regional > Deutschland > Bildung > Bibliotheken 
  > Wissenschaftliche Allgemeinbibliotheken
Auf dieser Liste mit nur 22 Eintraegen stehen SB Muenchen und SB 
Berlin auf den Plaetzen 2 und 3, dann einige namhafte UBs, auf Platz 
1 aber eine, die nicht jeder dort erwarten wuerde. (Ob die den 
Platz gekauft haben?) Soviel zum "Relevance Ranking", um die 
Erwartungen in solche Dinge nochmals zu relativieren.

MfG B.E.

Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329, 
D-38023 Braunschweig, Germany
Tel.  +49 531 391-5026 , -5011 , FAX  -5836
e-mail  B.Eversberg _at__ tu-bs.de  


Listeninformationen unter http://www.inetbib.de.