[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] PDF-dateien im GoogleIndex



Hallo liebe Liste,

Karl Dietz schrieb:

Sind auch zwei unterschiedliche Arten von Text im PDF. Das duerfte der
Grund sein, Klaus.

Nein, das wurde doch schon untersucht und zurecht ausgeschlossen. Es
liegt einfach an Googles Unvollständigkeit. Das grafsche PDF ist ja
nicht das einzige, dass Google nicht indexiert hat.

Der Freidok-OAI-Server liefert als "completeListSize" 5866 (=
Metadatensätze). PDF ist das einzige Format, was der Freidok-Server
akzeptiert und zu jedem Dokument muss es mindestens 1 PDF geben, also
mindestens 5866 PDFs.

Von den 5866 Einstiegsseiten hat Google nach eigenen Angaben 5820 Seiten
indexiert:
http://www.google.com/search?q=site%3Afreidok.uni-freiburg.de+"eingang+zum+volltext"&filter=0

Und davon wiederum nur 5090 PDFs:
http://www.google.com/search?q=site%3Afreidok.uni-freiburg.de+filetype%3Apdf&filter=0

Verifizieren lässt sich die Trefferzahl nicht, da Google nur max. 1000
Treffer anzeigt. Wenn aber Googles eigene Angaben stimmen, hat Google zu
knapp 800 indexierten Freidok-Einstiegsseiten nicht das dazugehörige PDF
indexiert.

Das stimmt übrigens ganz gut mit Tests für andere Server überein, die
ich mal durchgeführt habe - Google hat oft nur ca. 80% der
Einstiegsseiten indexiert. Lücken gibt es dabei in allen Jahren, nicht
nur bei den neuesten Einträgen.

Bing hat nach eigenen Angaben nur 4.770 PDFs vom Freidok-Server drin:
http://www.bing.com/search?q=site%3Afreidok.uni-freiburg.de+filetype%3Apdf&filter=0

Es ist eben so: Google, Bing und alle anderen SuMas indexieren manche
Dateien einfach nicht. Eine Regelmäßigkeit konnte ich da noch nie
feststellen, warum eine Seite von Google indexiert wird und eine andere
nicht. Das einzige, was der Betreiber machen kann, ist eine spezielle
Sitemap für Suchmaschinen zu erstellen, um alle Seiten in den Index
reinzukriegen. Eine Garantie ist das natürlich auch nicht, aber
vielleicht kommen ja so am Ende 90% der PDFs rein.

Viele Grüße

Sebastian Wolf

-- 
Sebastian Wolf : sebastian.wolf@xxxxxxxxxxxxxxxx
Uni-Bibliothek Bielefeld, Abt. Elektronische Dienstleistungen
Tel.:      +49 521 1064044
Website:   http://www.ub.uni-bielefeld.de/
Bookmarks: http://del.icio.us/bibliothekswelt/
Feeds:     http://www.bloglines.com/public/bibliothekswelt/

-- 
http://www.inetbib.de


Listeninformationen unter http://www.inetbib.de.