[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] Quarks und Co [was: Re: PiratK-UrhG. MetaGer]



Liebe Liste,

Wolfgang Sander-Beuermann schrieb:

was ich gestern bei "Quarks & Co" im WDR-TV berichtete, ist, dass Google
seit einiger Zeit andere/unsere Suchmaschinen mit Begriffen aus
Woerterbuechern fuettert, und diese Ergebnisse indexiert.

Klickt man dieses Ergebnis an, dann erhaelt man die Ergebnisseite der
von uns betriebenen Suchmaschine www.clewwa.de fuer genau diese
Abfrage (>studierendensekretariat<).

Google saugt hier also die Datenbanken anderer Suchmaschinenbetreiber
ab und bietet diese im eigenen Index an.

Wie man da von "Daten absaugen" sprechen kann, ist mir schleierhaft.
Freuen Sie sich doch, dass ihre Suchmaschine jetzt deutlich sichtbarer
wird. Google verweist jetzt nicht mehr nur auf die Clewwa-Startseite,
sondern auf zehntausende weitere Clewwa-Seiten.

Das HBZ hatte das schon vor einigen Jahren mit dem "Virtuellen
Bücherregal" selbstständig in Angriff genommen, um möglichst viele
Treffer aus dem eigenen Index in den Google-Index zu bringen, um somit
sichtbarer zu werden. Nun macht das Google offenbar ganz von alleine. :)

Den Vorwurf des "absaugens" könnte man übrigens auch Metager und Clewwa
selbst machen, schließlich saugen sie ja auch die Trefferlisten aus
anderen Suchmaschinen ab. Halte ich aber für Unsinn - wer etwas ins
Internet stellt, muss damit rechnen, dass seine Seiten von Suchmaschinen
gefunden und indexiert werden.

Und wem es nicht gefällt, kann dies sehr leicht verhindern, in dem man
auf den betreffenden Seiten einfach ein <meta name="robots"
content="noindex"> einfügt. Google und andere SuMas werden dann die
betreffende Seite nicht mehr indexieren (es dauert aber einige Zeit, bis
bereits indexierte Seiten entfernt werden). Über die Google Webmaster
Tools kann man sogar eine ganze Domain aus dem Google-Index löschen
lassen (natürlich nur, wenn man sich vorher als Besitzer der Domain
authentifiziert hat).

Vielleicht bleibt aber doch lieber gleich ganz offline, wenn man nicht
gefunden werden möchte :)

Wie ich gerade festgestellt habe, verfügt Clewwa weder über
entsprechende <meta>-Tags noch überhaupt über eine robots.txt. Eine
robots.txt ist eigentlich Pflicht für jede Webseite.

Man kann Google natürlich vorwerfen, dass sie damit ihren Index
künstlich aufblähen und die eigenen Trefferlisten mit Millionen oder gar
Milliarden von automatisch generierten Suchanfragen zumüllen. Das ist
schon problematisch. Da allerdings diese Seiten alle einen niedrigen
Page-Rank haben, da sie nicht von extern verlinkt sind, tauchen sie in
bei einer "normalen" Suchanfrage in der Regel erst weiter hinten in der
Trefferliste auf. Und ob man nun bei einer Suche 1 Mio. oder 100 Mio.
Treffer findet, ist eigentlich egal. Mehr als die ersten 10-20 Treffer
schaut man sich normalerweise sowieso nie an.

Viele Grüße

Sebastian Wolf

-- 
Sebastian Wolf : sebastian.wolf@xxxxxxxxxxxxxxxx
Uni-Bibliothek Bielefeld, Abt. Elektronische Dienstleistungen
Tel.:      +49 521 1064044
Website:   http://www.ub.uni-bielefeld.de/
Bookmarks: http://del.icio.us/bibliothekswelt/
Feeds:     http://www.bloglines.com/public/bibliothekswelt/

+++ Internationale Open Access Week, 19.-23. Oktober 2009,
http://www.ub.uni-bielefeld.de/aktuell/index.htm#oaweek +++

-- 
http://www.inetbib.de


Listeninformationen unter http://www.inetbib.de.