[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Problem mit Google



Am Mittwoch, 9. Februar 2005 09:29 schrieb Sebastian Wolf:
> Um zum Problem-Beispiel zurückzukommen: Interessant ist, dass eine
> Such nach "site:augustana.de" in der Trefferliste die Angabe "1-2 von
> ungefähr 562" liefert. Google hat also die Web-Seiten evtl. doch noch
> im Index, zeigt sie aber auch nach Ausschalten des Filters nicht an.
> Allerdings sind die Trefferzahlen bei Google mit größter Vorsicht zu
> genießen sind - dies zeigt der Artikel "Google's counts faked?" sehr
> anschaulich. URL:
> http://aixtal.blogspot.com/2005/01/web-googles-counts-faked.html

Hallo,

wenn es tatsächlich augustana.de-Einträge im Index gäbe, dann würden sie auch
angezeigt - zumindest als "verwaiste" URLs, wenn sie nicht im Cache enthalten
sind. Wie das aussieht, ist hier erklärt:

http://www.searchengineshowdown.com/features/google/unindexed.shtml

Zur Angabe "ungefähr 562": Google zählt nicht die exakte Gesamtzahl von
erzielten Treffern. Der Index ist dafür zu gross und das würde zu lange
dauern. Auch verhältnismässig kleine Zahlen wie 562 stimmen daher nicht.
Deswegen schreibt Google immer "ungefähr" vor die Zahl, wenn die
Ergebnismenge nicht wirklich gezählt wurde. Wirklich gezählt wird nur beim
Durchblättern der Trefferlisten, und beim Erreichen der letzten Ergebnisseite
verschwindet das "ungefähr", wenn man vorher noch die Aktion "die Suche unter
Einbeziehung der übersprungenen Ergebnisse wiederholen" ausgelöst hat.

Die Anzeige "ungefähr" wird durch ein Count-Sketch-Verfahren erzeugt. Zu dem
Thema gibt es einen Google-Aufsatz:

Moses Charikar, Kevin Chen, Martin Farach-Colton: "Finding frequent Items in
data streams", http://citeseer.ist.psu.edu/charikar02finding.html

Woher kommt also die 562? Meiner Vermutung nach könnte das eine Schätzgrösse
über die Zahl der Verweise auf Seiten in www.augustana.de sein, die die
Googlebots wo auch immer gefunden und in die Google-Indexierungswarteschlange
eingereiht haben und dem Schätzalgorithmus bereits zur Verfügung steht.
Ähnlich gross ist die Angabe bei der Suche "inurl:www.augustana.de", nämlich
"ungefähr 768".

Viele Grüsse

Jörg Prante

--
Jörg Prante
joergprante@xxxxxxxxxxxxx


Listeninformationen unter http://www.inetbib.de.