[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Neues von den Suchmaschinen



Hallo,

Christoph Deblon schrieb:
> Zeigt sich da nicht auch eine Kehrseite der Sache?
> 
> Ich hatte letztens bei der Suchfrage xyz + betrUg neben richtigen 
> Treffern _auch_ jede Menge unerwuenschter xyz + betrAg und 
> aehnliche; man koennte ja meinen, das waer besonders raffiniert, 
> aber das mag ich nicht so recht glauben ...

Bei Google scheint man in den letzten Monaten einigermaßen massive
Änderungen an der Indexierungslogik vorgenommen zu haben.

Es fing damit an, daß "häufige" Worte nicht mehr suchbar waren
(Rückmeldung ungefähr in der Form "<wort> ist ein sehr häufiges
Wort und wurde deshalb ignoriert"). Dann kam das vom Christoph
Deblon beschriebene Phänomen hinzu, bei gleichzeitiger Einführung
der "Auto-Korrektur" offensichtlich falsch geschriebener Worte.

Generell gibt es bei Google ansonsten schon immer das Problem, daß
"sehr exotische" Worte überhaupt nicht im Dictionary sind und dement-
sprechend auch nicht gefunden werden. In Webseiten gefundene neue
Wörter werden offensichtlich nicht automatisch dem Suchwörterbuch
zugeführt.

Von der technischen Seite riecht das ein wenig danach, daß die
Leute bei Google mit steigenden Datenmengen so ganz allmählich
ein Problem bekommen, die Fundstellenmatrix noch handhaben zu können.
Man scheint deswegen zum Teil auf das Prinzip einer "definierten
Unschärfe" zurückzugreifen. Da gibt es einige Verfahren, mit denen
sich algorithmisch durchaus etwas gewinnen läßt, ohne allzu große
Nachteile nach außen zu offenbaren. Und ein gewisser Unschärfegrad
läßt sich auch als Feature verkaufen... :-)

Derzeit arbeiten vermutlich alle "großen" Suchmaschinen matrixbasiert,
weil diese Grundanlage der Index-Datenstruktur das schnellste Retrieval
ermöglicht.

Mit den aktuell im Netz per HTTP verfügbaren Datenmengen und dem
anscheinend ja noch steigenden Erschließungsgrad kommen die
matrixbasierten Volltext-Indizies so ganz allmählich an ihre
Leistungsgrenzen. Als erstes wird darunter das Ranking leiden, welches
bisher vornehmlich über statische Definition von Seitenprioritäten
gehandhabt wird. D. h. Google merkt sich, welche Seiten als wie wichtig
angesehen werden. Google merkt sich aber keineswegs, ob eine Seite
allgemein wichtig ist, oder ob diese nur innerhalb eines bestimmten
Kontextes "relevant" ist. Mit anderen Worten: Das Ranking läuft
zum großen Teil unabhängig von der eigentlichen Suchanfrage. Daß die
Ergebnisse trotzdem gut sind liegt an den bei der Beurteilung zum
Einsatz kommenden, sehr allgemein gehaltenen Heuristiken.

Da sich beim "Eingabematerial" der Suchmaschinen über die Jahre aber
eine qualitativ-technische Angleichung vollziehen wird, sprich
"technische Niveau-Unterschiede" in der Realisierung verschiedener
WWW-Auftritte immer geringer werden, fällt diese automatisiert
sehr gut erfaßbare Ranking-Unterstützung langfristig raus. Da sich
im Bereich der KI derzeit wohl auch eher wenig tut wird auch der
Themenkomplex "automatisches Verstehen von Texten" vorerst Illusion
bleiben. Was also dazu führen wird, daß die heutigen "Globalranking-
ansätze" irgendwann vor die Wand fahren.

Langfristig wird ein wirklich brauchbares Ranking nur auf Basis
einer konkreten Anfrage funktionieren. Um nicht zum Zeitpunkt einer
Anfrage Millionen von Dokumenten durchforsten zu müssen, bedarf es
auf der Seite der Suchmaschine einer völlig anderen Dictionary- bzw.
Indexstruktur. Und auf der Seite der Anwender mehr Geduld: Ein
anfrageorientiertes Ranking auf einer Ergebnismenge von ein paar
hundertausend Dokumenten durchzuführen braucht auf einem Linux-basierten
State-of-the-Art-PC eine deutlich zweistellige Sekundenzahl - bei
Rechenleistung und Hauptspeicher im Giga-Bereich.

Fazit für mich: Im Bereich der Internet-Recherche gibt es auch auf der
Softwareseite noch viel gutes, was man bauen kann. Aber das Prinzip
der "Instant-Suchmaschine" (Eintippen und sofortige Ergebnisanzeige)
wird sich nicht mehr beliebig weit optimieren lassen. Eher drohen
die Ergebnisse aus solchen Suchmaschinen über die Zeit schlechter zu
werden - unabhängig vom Willen und technischen Können der Betreiber.

Viele Grüße aus der "Spätschicht" :-)

Daniel Rödding



-- 
Daniel Roedding                                       phone: +49 5252 9838 0
daniel _at__ roedding.de                                      fax: +49 5252 9838 20


Listeninformationen unter http://www.inetbib.de.