[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Sonderzeichen bei Google (war: Re: Wettbewerb)



Hallo liebe Inetbibler,

Pierre Keller schrieb am 3 Dec 2003 um 12:59:

>   "Laverriere Pont Chauderon" -> findet den Artikel nicht
[...]
> Das sind alles Begriffe, die im fraglichen Artikel vorkommen.

Zuerst hätte ich darauf getippt, dass das PDF zu groß ist (Google und
auch andere Suchmaschinen indexieren i.d.R. nur die ersten 100 KB
eines Dokuments). Das PDF ist aber insgesamt nur 86 KB groß - daran
kann es also nicht liegen.
Mit einer "known-item-Suche" kann man auch feststellen, dass das PDF
komplett indexiert ist. Man findet das Dokument z.B. auch mit der
Eingabe "traversant des tracés" (diese Wörter kommen im PDF im
allerletzten Satz vor).

Wahrscheinlich liegt es wirklich daran, dass der accent grave nicht
von Google (damit meine ich immer Google.de) korrekt "normalisiert"
wird. Eine Suche bei Google.de bestätigt dies:
laverriere = 2.850 Treffer
laverrière = 3.630 Treffer

Gibt man dagegen andere Akzente, wird offenber korrekt
"normalisiert":
laverriére = 2.860 Treffer
laverriêre = 2.860 Treffer
Die Top10 sind hier identisch mit den Top10 bei Eingabe von
"laverriere". Der Unterschied von 10 Treffer (2.860 zu 2.850) kommt
wahrscheinlich durch die spezielle "Google-Zählung" zu stande.

Man muss also in der Tat den "accent grave" bei der Suche mit
eingeben. Wer auf seiner Tastatur dieses Zeichen nicht hat, hat bei
Google.de Pech gehabt.
Man sollte dann zu einer Suchmaschine wechseln, die vernünftigere
Suchmöglichkeiten bietet, z.B. Alltheweb.
Alltheweb findet immer 7.006 Treffer - egal wie man den Namen
eingibt.
Leider ist aber bei Alltheweb ausgerechnet diese PDF-Datei offenbar
nicht indexiert!
Mir ist leider keine andere große Suchmaschine bekannt, die auch PDF-
Dateien indexiert und suchbar macht.

> Dafür aber funktionieren so absurde Sachen wie
> "LAVERRIEREAUXARCHIVES" (zugegeben, auf sowas wäre ich nicht
> gekommen... der Forscher vermutlich auch nicht...)

Dies liegt daran, dass die Überschrift des PDF-Dokument lautet:
"LE FONDS LAVERRIEREAUXARCHIVES ..."
(vermutlich wurde beim Umwandeln der Datei ins PDF-Dokument aus
"laverriere aux archives" das Wort "laverriereauxarchives"). Da
Suchmaschinen einfach nur Zeichen für Zeichen indexieren (und nicht
erkennen können, ob mehrere Wörter zufällig ohne Leerzeichen
hintereinander stehen), hat Google natürlich das Wort
"LAVERRIEREAUXARCHIVES" indexiert

Ich hoffe, damit sind alle Klarheiten beseitigt.

Viele Grüße

Sebastian Wolf

--
Sebastian Wolf
Universitätsbibliothek Bielefeld, Internet-Gruppe
Tel.: 0521 / 106-4044, E-Mail: wolf _at__ ub.uni-bielefeld.de
URL: http://www.ub.uni-bielefeld.de
----------------------------------------------------
Welcome to the 7th International Bielefeld Conference,
3 - 5 February 2004, http://conference.ub.uni-bielefeld.de


Listeninformationen unter http://www.inetbib.de.