[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] InetBib] Neue Suchmaschine von Q-Sensei bietet



Sebastian Wolf schrieb:

Guten Morgen!

[...]
Aber selbst wenn es die Dokumentenserver den Suchmaschinen
einfach machen (z.B. über eine Indexseite mit allen
Dokumenten), indexiert GS längst nicht alles.

Wahrscheinlich schon "alles" aber die Zeitskala auf der das
passiert ist so, dass das "alles" laengst veraltet ist, will
sagen wieder nur einen kleinen Teil des Ganzen darstellt.

Hier ein kleiner Vergleich für unseren Dokumentenserver
BieSOn (OPUS-System inkl. einer Indexseite, über die
Suchmaschinen alle Dokumente indexieren können).

Insgesamt:  995 Dokumente
in BASE:    994 Dokumente
in OAIster: 990 Dokumente
in Google:  491 Dokumente (PDFs und PS)
in Google Scholar: 444 (!) Dokumente

Also hat GS nicht mal 50% aller Dokumente indexiert - und ob es bei anderen OPUS-Servern viel besser aussieht, bezweifele ich.

Aus meiner bescheidenen Erfahrung sieht das nicht anders
aus. Vielleicht kann man sogar recht einfach verstehen
warum. Soweit ich das sehe spielt einem hier der Pagerank
einen Streich. Google (aka <place your favourite search
engine here>) muss irgendwie "das gesamte" Internet
einsammeln. Irgendwie muessen die dabei priorisieren wie oft
sie eine Seite neu indexieren. Soweit ich das verstehe setzt
Google diese Prioritaet, zumindest auch, nach dem Pagerank,
d.h. eine Seite die hoch ranked wird oft aufgerufen, ggf.
oft geaendert und damit oft neu indexiert. Das ist auch
vernuenftig. Meistens.

Jetzt steht irgendwo, irgendsoein winziges Repository (no
offense, 995 Dokumente ist nicht "riesig"; in der Liga aber
wohl auch nicht ganz klein) und das hat irgendwo eine
statische HTML-Seite liegen in der der Content
"Google-faehig" abgelegt wird. So macht das OPUS. Nun wird
keiner diese Seite verlinken, und wenn sie denn doch
verlinkt ist dann sehr selten und irgendwo innerhalb der
eigenen Seitenstruktur. Jedenfalls legt man sie kaum als Homepage
der Uni ab, und externe Links gehen da auch nicht hin. Da
sich der Pagerank nun aber im wesentlichen aus den Links auf
eine Seite ergibt, und da vorzugsweise externe Links, haben
diese Indexseiten fuer Google naturgemaess einen Pagerank
den man getrost vernachlaessigen kann. Und entsprechend
"wichtig" ist dann die Neuindexierung. In einem System an
dem ich zeitweise etwas beteiligt war mit einem Content von
ca. 2000 Dokumenten kam Google bestenfalls jedes halbe Jahr
mal vorbei.

Man kann versuchen das zu verbessern, in dem man
haendisch(!) nach jedem Freischalten neuer Dokumente Google
mit der Nase auf die Seite stoesst. Das haendische Melden
erhoeht die Prioritaet ein bisschen. Vielleicht kommt, wenn
man das oft genug macht, Google dann alle 5 Monate vorbei.
Aber man sollte vielleicht nicht vergessen, dass man da als
kleines Repositorium bei der Harvestingzeit/bandbreite von
Google schlicht mit der Times oder BBC konkurriert, und das
einfach garnicht kann.

Die Sache wird fuer Google ein bisschen besser, wenn sie, wie
BASE, die OAI-Schnittstellen harvesten. AFAIK machen sie das
fuer grosse Repositorien Gueteklasse arXiv. Deswegen muss
man mit obiger Statistik wohl auch vorsichtig sein. Google
ist deswegen "so gut" weil die den Hauptteil ueber solche
Repositorien einsammeln und eher nicht direkt von BieSOn.
(Jedenfalls wenn das obige auf Titel- und nicht auf URL-Ebene
ist. Die Titelebene waere ja das was man recherchiert. Das
steht da nicht, ich koennte mir nur denken, dass Google auf
Titelebene ueber die grossen Repositorien noch besser wird.)

Vielleicht gibts auch irgendwo eine Moeglichkeit einen
offenen OAI-Port an Google zu melden bzw.  die sammeln das
von den zugaenglichen Listen vielleicht sogar ein.
Nichts desto trotz werden die bei irgendeinem kleinen
Repositorium  nie so oft vorbeikommen wie bei der Times oder
BBC etc. Und die sind alle klein: in obigem Beispiel ist
BieSOn knapp einen Faktor 500(!) kleiner als arXiv, und das
wiederum ist nach Googles Schaetzung etwa 200 mal kleiner
als site:bbc.co.uk (geben wir einen Faktor 2, oder mir wegen
auch eine 10 auf den Fehler, es wird immer noch nicht
gross...) Und die Gueteklasse bbc.co.uk gibts im Netz noch
ein paar mal.

Es ist also nicht unwahrscheinlich, dass die
Unvollstaendigkeit von Google Scholar im wesentlichen eine
Unaktualitaet wiederspiegelt, die fuer eine Suchmaschine
aber schon fast unvermeidlich ist. Ganz platt: wen
interessiert denn schon irgendeine Disseratation verglichen
mit dem Interesse, dass z.B. diese Veranstaltung in China
gerade hervorruft. Also auf der Skala von 6 Mrd.
Erdenbuergern (aka der Zielgruppe von Google), nicht auf der
Skala einer kleinen Wissenschaftlergruppe. Oder anders herum
gefragt: wieviele Leute wuerde Google als Kunden verlieren
(wir haben noch Kapitalismus, oder hab' ich da was
verpasst?) wenn sie die Dissertation von XY nicht
nachweisen, dafuer aber alles ueber diese Chinashow finden,
und wie waere das Verhaeltnis, wenn sie diese Chinashow
ignorierten und dafuer alle Dissertationen der Erde komplett
nachwiesen?

Leider sind die Trefferzahlen, die GS bei Volltextsuchen
selbst liefert, meist völlig unbrauchbar,

Das wuerde ich mit meiner bescheidenen Rechercheerfahrung
auch so bestaetigen. Wenn man Paper mit Google sucht ist man
schon selbst schuld. Oder man hat nichts besseres; diese
Communities tun mir ehrlich leid, da muss man dann wohl doch
wie Seinerzeit... (Google ist aber oft garnicht schlecht um
die Datenbank zu finden in der man recherchieren will...)

Man muss da IMHO auch sehr aufpassen mit reinen
Trefferzahlen, da stellt sich ja schon noch die Frage der
Relevanz der Treffer. Davon ausgehend, dass Hr.  Wolf
sicherlich oben die Doubletten bereinigt hat die gerade
Google tonnenweise produziert und die das suchen in den
Treffern schon recht unerquicklich machen koennen.

wie auch eine kürzliche Studie von Peter Jasco wieder
gezeigt hat (Online Information Review, 2008, Vol. 32, Nr.
1, S.  102 ff.), da lässt man sich vielleicht auch
täuschen, was die tatsächliche Größe des
Google-Scholar-Indexes angeht.

Vielleicht ist es einfach guenstig sich zu ueberlegen was
Suchmaschinen primaer indexieren und was im hiesigen Kontext
dagegen die primaere Treffermenge charakterisiert.  Darob
der kleinen Schnittmenge ist dann die Verwunderung
vielleicht etwas geringer.

Das von Hr. Hehl angefuehrte Paper zielt, soweit ich das
sehe, im wesentlichen darauf ab, festzustellen dass einige
Disziplinen im WoS nicht adaequat repraesentiert sind. Als
Gruende werden die geringe Abdeckung nicht englischer Texte
bzw. auch die zu geringe Abdeckung einiger Arbeitsgebiete
oder Regionen angefuehrt. Das ist sicherlich im WoS schon so
richtig. Da darf man wohl nicht ganz vergessen, wie
"Sciences" uebersetzt werden muss, so das fuer das Wo_S_
dieses Problem gar nicht soooo relevant ist.  (Ok, es gibt
diese zwei Subindicees, aber dass ein Zeitschriftenindex
eine Buchwissenschaft nicht komplett abdeckt ist fuer mich
jetzt nicht so verwunderlich). Auch wuerde ich mich hueten
zu behaupten man solle nur im WoS recherchieren. Das waere
in etwa genauso naiv wie nur Google anwerfen. Und soweit ich
das hier Ueberblicke sind die Autoren des fraglichen
Artikels aus den "Economics".  Sorry, die sind schon mal
wieder in der total falschen Datenbank unterwegs. Vielleicht
waeren die bei BSP besser aufgehoben.

--

Kind regards,

Alexander Wagner
Universitaetsbibliothek Ilmenau
Langewiesener Str. 37
98693 Ilmenau
Tel.: 03677/69-4521 , Fax.: 03677/69-4617



Listeninformationen unter http://www.inetbib.de.