[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Problem mit Google



Am Dienstag, 8. Februar 2005 11:00 schrieb Sascha Carlin:
> Jörg Prante said:
> > 1. Der Server www.augustana.de besitzt die IP 80.67.17.37
> > Die Google-Indexierung geht über die IP-Nummer. Unter http://80.67.17.37/
> > erscheint jedoch im Browser die Meldung "404 Not Found". Wenden Sie sich
> > an Ihren Provider, um diese Einstellung zu korrigieren.
>
> Wenn es so laufen sollte wie Sie sagen, wäre keine einzige Website, die in
> einem Shared Hosting Environment liegt, sprich sich eine IP mit vielen
> andere Websites teilt, in Google aufgenommen.

Hallo Herr Carlin,

auch virtuelle Server melden unter der IP-Nummer zumindest den HTTP-Code 200
und nicht 404. Der Fehlercode "404 not found" kann für Crawler, die sich eine
IP vom vorigen Durchlauf gemerkt haben, schon reichen, um anzunehmen, dass
die Seite verschwunden ist und sich eine Indexierung nicht mehr lohnt.
Googlebot ist sehr misstrauisch und gibt bei Unstimmigkeiten leichter auf als
früher, um weniger Spam zu indexieren.

Die Annahmen von Herrn Dr. Sander-Beuermann sind ehrlich gesagt wilde
Vermutungen. Suchmaschinenoptimierungen (SEO) und Umleitungen (Redirects)
waren hier sicherlich nicht am Werk. Es wird sich um eine simple
Fehlkonfiguration auf Seiten des Providers handeln, und ein HTTP-Code 200
könnte möglicherweise schon die erwünschte Abhilfe schaffen.

> Ist keine robots.txt vorhanden, gilt das als Vorabfreigabe, alles zu
> spidern - wobei natürlich Meta-Tags in einzelnen Seiten weiterhin beachtet
> werden. Im Übrigen ist ist Ihr Beispiel fehlerhaft. Es müsste
>
> User-agent: *
> Disallow:
>
> heißen. Die robots.txt dient nicht dazu, Suchmaschinen ein-, sondern
> auszuladen.

Ihre Korrektur lädt alle Suchmaschinen ein und entspricht einem fehlenden
robots.txt - meinen Sie das wirklich? Um alle auszuladen, müsste es ja
heissen:

User-agent: *
Disallow: /

Wenn Sie die Google FAQ lesen, stellen Sie fest, dass Googlebot den Eintrag
"Allow" als Erweiterung des robot.txt-Standards versteht und nicht auf
"Disallow:" angewiesen ist. Daher kann man den Googlebot auch einladen,
bestimmte Bereiche oder Dateitypen einer Site zu durchsuchen - andere
Suchmaschinen unterstützen das nicht. Eine Einladung für die ganze Site sähe
so aus:

User-agent: Googlebot
Allow: /

Viele Grüsse

Jörg Prante

--
Jörg Prante
joergprante@xxxxxxxxxxxxx


Listeninformationen unter http://www.inetbib.de.