[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] PDF-dateien im GoogleIndex



On Mon, 29 Jun 2009 16:59:19 +0200
 Sebastian Wolf <sebastian.wolf@xxxxxxxxxxxxxxxx> wrote:
Hallo liebe Liste,

Karl Dietz schrieb:

Sind auch zwei unterschiedliche Arten von Text im PDF.
Das duerfte der
Grund sein, Klaus.

Nein, das wurde doch schon untersucht und zurecht
ausgeschlossen. Es
liegt einfach an Googles Unvollständigkeit. Das grafsche
PDF ist ja
nicht das einzige, dass Google nicht indexiert hat.

Der Freidok-OAI-Server liefert als "completeListSize"
5866 (=
Metadatensätze). PDF ist das einzige Format, was der
Freidok-Server
akzeptiert und zu jedem Dokument muss es mindestens 1 PDF
geben, also
mindestens 5866 PDFs.

Von den 5866 Einstiegsseiten hat Google nach eigenen
Angaben 5820 Seiten
indexiert:

http://www.google.com/search?q=site%3Afreidok.uni-freiburg.de+"eingang+zum+volltext"&filter=0

Und davon wiederum nur 5090 PDFs:

http://www.google.com/search?q=site%3Afreidok.uni-freiburg.de+filetype%3Apdf&filter=0

Verifizieren lässt sich die Trefferzahl nicht, da Google
nur max. 1000
Treffer anzeigt. Wenn aber Googles eigene Angaben
stimmen, hat Google zu
knapp 800 indexierten Freidok-Einstiegsseiten nicht das
dazugehörige PDF
indexiert.

Das stimmt übrigens ganz gut mit Tests für andere Server
überein, die
ich mal durchgeführt habe - Google hat oft nur ca. 80%
der
Einstiegsseiten indexiert. Lücken gibt es dabei in allen
Jahren, nicht
nur bei den neuesten Einträgen.

Bing hat nach eigenen Angaben nur 4.770 PDFs vom
Freidok-Server drin:

http://www.bing.com/search?q=site%3Afreidok.uni-freiburg.de+filetype%3Apdf&filter=0

Es ist eben so: Google, Bing und alle anderen SuMas
indexieren manche
Dateien einfach nicht. Eine Regelmäßigkeit konnte ich da
noch nie
feststellen, warum eine Seite von Google indexiert wird
und eine andere
nicht. Das einzige, was der Betreiber machen kann, ist
eine spezielle
Sitemap für Suchmaschinen zu erstellen, um alle Seiten in
den Index
reinzukriegen. Eine Garantie ist das natürlich auch
nicht, aber
vielleicht kommen ja so am Ende 90% der PDFs rein.

Viele Grüße

Sebastian Wolf

Vielen Dank fuer diesen fundierten Beitrag, der meine
eigenen Feststellungen ergaenzt.

Aus der Sicht der Open-Access-Anhaenger muess es dringend
wuenschenswert sein, dass der VOLLTEXT aller Eprints (und
nicht nur 90 Prozent) fuer eine Suche zur Verfuegung steht.

OAI-Metadaten sind unzureichend! 

Seit dem Scheitern des Hochschulschriften-Harvestings von
Metager kenne ich keinen von Google unabhaengigen Versuch,
OA-Volltexte IR-uebergreifend suchbar zu machen.

Soweit IRs eine eigene Volltextsuche anbieten wie DSpace,
waere eine Metasuche dieser Angebote ein Schritt in die
richtige Richtung - ergaenzend zu Google. Und OPUS muss
eine eigene Volltextsuche anbieten, die wiederum
serveruebergreifend als Metasuche ausgestaltet sein sollte.
Da die meisten deutschen IRs OPUS verwenden, waere das ein
wichtiger Schritt. Wenn (Meta-)Suchmaschinenprogrammierer
es lernen wuerden, bei Bedarf nur diejenigen Treffer
auszugeben, die NICHT bei Google sind, waere das ebenfalls
zielfuehrend.

Klaus Graf   

-- 
http://www.inetbib.de


Listeninformationen unter http://www.inetbib.de.