[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] Google Scholar etc. (war: Re: InetBib] Neue Suchmaschine von Q-Sensei bietet)



Sebastian Wolf schrieb:

Guten Morgen!

einen Streich. Google (aka <place your favourite search
engine here>) muss irgendwie "das gesamte" Internet
einsammeln. Irgendwie muessen die dabei priorisieren wie
oft sie eine Seite neu indexieren. Soweit ich das
verstehe setzt Google diese Prioritaet, zumindest auch,
nach dem Pagerank, d.h. eine Seite die hoch ranked wird
oft aufgerufen, ggf.  oft geaendert und damit oft neu
indexiert. Das ist auch vernuenftig. Meistens.

Damit hat es in diesem Fall aber nichts zu tun. Google hat
auch Seiten von unserem Repository indexiert, die erst
kürzlich (Juni 2008) erstellt wurden. Es ist also eine
mehr oder weniger sinnfreie Auswahl an PDFs aus unserem
Repository, die in Google zu finden sind.

Nun ja, wenn ich "das WWW" indexieren will, dann wird man
hier eine Auswahl treffen was, in welcher Reihenfolge wie
oft indexiert wird. Geht man davon aus, dass die
wesentlichen Informationen auf einem hoeheren Level liegen
wird man Links auf eine niedrigere Stufe niedriger
priorisieren, Seiten, die von Hause aus einen niedrigen Rang
haben kommen dann noch ein Stueckchen weiter nach unten. Und
es klingt plausibel, dass man die abgehenden Links einer
Seite nicht der Reihe nach abarbeitet sondern eine
zufaellige Auswahl trifft, und die restlichen in die
Warteschleife schickt. Wiederum mit entsprechend niedriger
Prioritaet. Zumindest erklaert das recht zwanglos Ihre
Beobachtung. U.U. ist der "durchschnittliche Treffer"
besser, wenn man von allem einen Teil aber fast nichts ganz
hat. (Was auch wieder plausibel ist, da wichtige Dinge ja im
Netz meist mehrfach zu finden sind.)

Das Problem, dass da eine Suchmaschine IMHO hat ist, dass
sie vergleichsweise viele grosse Seiten sehr oft indexieren
muss (wenn Google auf den Nachrichtenseiten nur alle Monate
mal vorbeikommt ist das unguenstig) gleichzeitig eine
endliche Bandbreite zur Verfuegung steht. Hier mag es sich
anbieten ueber statistische Indexierungen nachzudenken.

Die OPUS-Indexliste mit allen Links auf die
HTML-Eingangsseiten ist auch von unserer
Repository-Startseite verlinkt (allerdings so, dass sie
nur für Suchmaschinen-Robots "sichtbar" ist).

Die Frage ist denke ich nicht, ob Google die findet. Das
machen diese Indexseiten. Die Frage ist, fuer wie wichtig
der Indexieralgorithmus diese Seite haelt und wie oft und
wie ausfuehrlich den Links gefolgt wird. So wuerde ich
vermuten, dass man z.B. auf einer Seite mit Rang 1 auch
jeden abgehenden Link indexiert. Auf einer Seite mit Rang
1000 vielleicht aber nur eine zufaellige Auswahl von 10%
der Links waerend man den Rest auf die Todo-Liste des Robots
setzt. Mit der Idee, dass das was von einer Seite mit Rang
1000 "nach unten" verlinkt ist vielleicht noch Rang 5000
hat.

Man kann versuchen das zu verbessern, in dem man
haendisch(!) nach jedem Freischalten neuer Dokumente
Google

Die händische Methode empfiehlt sich allenfalls bei
Seiten, die nicht über "normale" Links zugänglich sind.

Jain. Zumindest las sich das anders. Die Aussage von Google
war hier eben, dass eine Seite im Netz eine bestimmte
Prioritaet zur Neuindexierung bekommt, und dass man diese
Prioritaet erhoehen kann indem man dem Robot sagt "ich hab'
da was gaendert, schau' mal wieder vorbei".

Google, Yahoo & Co. bieten die Möglichkeit an, eine
spezielle "Sitemap"-Datei im XML-Format mit einer Liste
von URLs zu erstellen, die dann von der SuMa abgegrast
werden kann. Infos dazu unter: http://www.sitemaps.org/de/

Die Aussage von Google war hierzu, dass der Einfluss einer
manuellen Meldung deutlich hoeher ist als irgendein XML-File
irgendwo, da man (so sagten die) die intellektuelle Meldung
hoeher wichtet als eine Robotermeldung. Deswegen der
"haendische Link". Weiterhin gab es fuer die "Meldeseite"
auch einen automatischen Link, so dass man selbst ohne
Sitemap einen Hinweis an den Robot absetzen konnte. Dieser
wuerde aber, so las sich das ebenfalls deutlich niedriger
priorisiert als eine Meldung bei der der Robot sehen kann
"da sass ein Mensch vor dem Rechner".

Bei Dokumenten aus OPUS-Systemen sollte dies aber nicht
notwenig sein, denn neue Dokumente sind z.B. immer über
Browsing-Seiten verlinkt, die von Google & Co. indexiert
werden können. Damit sind auch die HTML-Eingangsseiten und
im Endeffekt auch die PDFs sofort indexierbar.

Wie gesagt, mein Punkt ist nicht, dass er die nicht findet
oder nicht indexieren kann. Die Frage ist denke ich eher
(etwas ueberspitzt): wieviel Bandbreite verschwendet Google
fuer Seiten die kaum jemanden interessieren. Oder etwas
diplomatischer: auf welcher Prioritaet sieht der Robot eine
solche Seite in seiner ToDo-Liste und wieviel anderes kommt
vorher bevor er da wieder vorbei kommt.

Natürlich muss man die SuMas auch ein wenig in Schutz
nehmen, sie können nicht einfach unbesehen jeden Link
indexieren.

Das ist klar. Da bin ich auch der Letzte der auf Google und
Co schimpft. IMHO sind die viel besser als so mancher hier
meint. Nur muss man sie halt das richtige Fragen.

Die Sache wird fuer Google ein bisschen besser, wenn sie,
wie BASE, die OAI-Schnittstellen harvesten. AFAIK machen
sie das fuer grosse Repositorien Gueteklasse arXiv.
Deswegen muss

Das kann ich mir ehrlich gesagt nicht vorstellten, dass
Google diesen Aufwand betreibt - nicht einmal Google
Scholar harvestet direkt die OAI-Schnittstellen.

Ok, "nicht mehr", bisher wohl schon.
http://googlewebmastercentral.blogspot.com/2008/04/retiring-support-for-oai-pmh-in.html

Nur mal nebenbei: Google Scholar kümmert sich auch nicht
um die Original-Metadaten aus den Dokumentenservern,
sondern indexiert Autorennamen etc. per automatischer
Texterkennung.

Nun, ich glaube nicht behauptet zu haben ich waere von
Google Scholar besonders angetan. ;)

aber schon fast unvermeidlich ist. Ganz platt: wen
interessiert denn schon irgendeine Disseratation
verglichen mit dem Interesse, dass z.B. diese
Veranstaltung in China gerade hervorruft. Also auf der
Skala von 6 Mrd.

Hier sollte man Google und Google Scholar klar voneinander
trennen. Dass die allgemeine Google-Suche nicht jede Diss.
indexiert, ist schon klar.

Nun ja, Google ist eine Firma, und die indexieren Webseiten.
Das hinreichend gut. Und dann gibts da so einen Anhang mit
dem man kein Geld verdient, der sich aber gut macht, und der
heisst halt wohl Scholar.

Und dass wissenschaftliche Treffer in der Masse an anderen
Dingen bei Google untergehen, ist auch klar.

Wenn man's richtig fragt muss es aber garnicht soooo extrem
schlecht sein. Also fuer einen Einstieg. Diesem allgemeinen
Google-bashing kann ich mich da nicht anschliessen. Man muss
halt wissen was man, wie sinnvoll fragen kann und dann eben
auch wissen was man als Antwort erwarten kann.

Google Scholar ist aber eine wissenschaftliche
Suchmaschine.

"will eine werden" ist denke ich realistischer. Meiner sehr
bescheidenen Erfahrung nach gibts da besseres.

[...]
Das sind übrigens nicht die Trefferzahlen, die die SuMas
ausgeben, denn die stimmen nie. Man muss sich schon bis
zur letzten Trefferseite durchgeklicken, erst dann erhält
man die exakte Trefferzahl.

Schon klar. Nur ein paar hundert seiten nach hinten fuer
site:bbc.co.uk war mir die Zeit nicht wert um eine
Hausnummer zu produzieren ;)

Ein "Key author" in unserem Bieson-Server ist laut Google
Scholar übrigens der allseits beliebte "F Schlagwörter" ;)

Dessen Paper sind zum Einstieg waermstens empfohlen. Hat auf
fast allen Gebieten umfaenglich publiziert. :>

Bei Google Scholar sind übrigens auch neue Dokumente aus
2008 von unserem Repository drin (hatte ich schon erwähnt,
dass die Suche nach Erscheinungsjahren bei Google Scholar
völlig unbrauchbar ist?).

Da ist mehr unbrauchbar, drum ja meine Rede, dass man da mal
anfangen kann zu gucken aber doch hinterher vielleicht eher
eine richtige Datenbank bemuehen sollte. Da ist der
Bibliothekar an sich vielleicht ja auch nicht ganz bloede
wenn er drauf verweist, dass es nicht ganz unsinnig ist, die
eine oder andere Datenbank fuer die Recherche zu verwenden
;)

Das sind sie aber gerade bei Google Scholar nicht, d.h.
Google Scholar ist bei der Ausgabe und Aufbereitung von
meist gut strukturierten, wissenschaftlichen Seiten
deutlich schlechter als Google, bei der Aufbereitung
unstrukturierter Webseiten mit allen möglichen Inhalten.
Da sollte man sich schon fragen, woran das liegt.

Shareholders Value? ;)

Relevanz der Treffer. Davon ausgehend, dass Hr.  Wolf
sicherlich oben die Doubletten bereinigt hat die gerade
Google tonnenweise produziert und die das suchen in den
Treffern schon recht unerquicklich machen koennen.

Welche Dubletten meinen Sie genau? Ich habe bei meiner
gestrigen Suche ja nur nach PDF-/PS-Dokumenten auf unserem
Server gesucht.

Google selbst produziert massenweise Doubletten, was die
Suche in Google nach Papern schon hinreichend laestig macht.
Drum kann man da, meiner bescheidenen Erfahrung nach, nicht
sagen "Google hatte 1257 Treffer" und "Base fand nur 245"
und Google ist deswegen besser.  Die Chance ist recht gross,
dass es nur 245 verschiedene Dokumente gibt. Das meinte ich
mit Googles Doubletten.

Anders gesagt ging ich davon aus, dass Sie nicht Aepfel mit
Birnen vergleichen ;)

[...]
Google Scholar ist einfach zu bedienen. Es ist schnell.
Und man kommt sehr häufig direkt an den Volltext, findet
Links auf den eigenen Bibliothksbestand oder auf einen
lizenzierten Zugang, den die eigene Bibliothek anbietet.
In dieser Hinsicht ist GS vielen Fachdatenbanken und
Bibliothekskatalogen überlegen - und deshalb wohl auch so
beliebt. Es wäre unsinnig, diese Vorteile in Abrede zu
stellen.

Mit dem "ueberlegen" waere ich vorsichtig. Google ist
einfacher zu bedienen. Und es ist wahrscheinlich keine dumme
Idee darueber nachzudenken ob es nicht vielleicht an einigen
laengst ueberkommenen Unsinnigkeiten liegen mag, dass Joe
User im Bibliothekskatalog nichts findet oder ob das
wirklich nur die vielbeschworene "mangelnde Kompetenz" ist.
Das hatten wir aber schon mal ;)

Mit der Web2-Komponenten "meinten Sie" (die frueher einfach
Woerterbuch hiess, aber das ist heute nicht mehr modern)
oder einer bei 0 Treffern automatischen "Trunkierung" usw.
koennte ich mich da schon anfreunden, und wenn zukuenftig
"Frauenfelder Huber" auch das besagte Lehrbuch findet statt
0 Treffer fuer einige Meter Bestand auszuweisen, nun, da
brauchts keine Raketentechnik mehr zu. Da _ist_ Google
besser, die gucken einfach deutlich mehr drauf was besagter
Joe braucht. Da koennte manche Fachdatenbank und mancher
Katalog von Google lernen, keine Frage.

Es wäre aber auch falsch, die Probleme, die es bei Google
Scholar gibt, unter den Teppich zu kehren.

Defintiv. Und es ist ziemlich kurzsichtig _nur_ dort zu
suchen. Da gibts mehr und, je nach Fach, deutlich bessers.
Und ab und zu soll auch ein Blick in diese dicken,
gebundenen Papierdinger helfen, die da in diesen
merkwuerdigen Haeusern rumstehen, wo man immer leise sein
soll.

--

Kind regards,

Alexander Wagner
Universitaetsbibliothek Ilmenau
Langewiesener Str. 37
98693 Ilmenau
Tel.: 03677/69-4521 , Fax.: 03677/69-4617



Listeninformationen unter http://www.inetbib.de.