[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] Wissenschaftliche Suchmaschinen



Guten Morgen Herr Graf,

gestatten Sie mir zu Ihrem Test, der ja die Ergebnisse unserer Untersuchung 
bestätigt, einige kurze Anmerkungen und Ergänzungen.

BASE ist überwiegend eine Metadatensuchmaschine. Von den aktuell 1.115 
indexierten Quellen haben wir z.Zt. nur von 39 Quellen die Metadaten zusammen 
mit den entsprechenden Volltexten indexiert (siehe auch unsere Quellenliste). 

In unserem Beitrag haben wir die Kriterien für die Vergleichsgruppe genannt 
(S. 358), des Weiteren steht da auch der Hinweis darauf, dass BASE, OAIster 
und ScientificCommons im Vergleich zu Google Scholar und SCIRUS überwiegend 
Metadaten indexieren (S. 362).

Google Scholar arbeitet aber in der Tat völlig anders als BASE oder OAIster. 
Nach Gesprächen mit Anurag Acharya (Chefentwickler von Google Scholar) auf 
der vorletzten Bielefeld Konferenz 2006  wissen wir, dass (OAI-) Metadaten 
zwar für die Lokalisierung von wissenschaftlichen Publikationen eine Rolle 
spielen bzw. gespielt haben, für die anschließende Indexierung und das 
Retrieval in Google Scholar aber nicht. Sein textanalytischer Ansatz erlaubt 
auf der einen Seite interessante Dinge wie Zitationsanalysen, hat aber im 
Vergleich zum Metadaten-basierten Retrieval auch Nachteile. Gerade im Bereich 
der Autorensuche in Google Scholar hat dies ja Peter Jascó [1,2]  
eindrucksvoll gezeigt.

Ein Ergebnis unseres Retrievaltests ist, dass in BASE die Wahrscheinlichkeit 
höher als in anderen wissenschaftlichen Suchmaschinen ist, auch auf den 
entsprechenden Volltext eines Dokumentes zu kommen. Insofern können wir nach 
wie vor zu der Aussage stehen, dass BASE besonderen Wert auf die freie 
Zugänglichkeit von Dokumenten legt. Ihren Ärger über DigiZeitschriften kann 
ich natürlich gut nachvollziehen.

Viele Grüße
Dirk Pieper



[1]   P. Jascó, Google Scholar: the pros and cons, Online Information Review 
29 (2005), 208-214

[2]   P. Jascó, Google Scholar revisited, Online Information Review 32 (2008), 
102-114




Am Montag 09 Februar 2009 17:53:17 schrieb Klaus Graf:
Ausgehend von der von Graf 2009 [1] an Pieper/Wolf 2009 [2]
geübten Kritik, dass die Untersuchung von
Volltextsuchmaschinen (Google Scholar, SCIRUS, BASE,
ScientificCommons, letztere teilweise) und einer
Metadatensuchmaschine (OAIster)zu Verzerrungen bei der
Treffermenge führen muss, soll die Funktionalität der
genannten wissenschaftlichen Suchmaschinen bezüglich des
Autor-Felds der Metadaten überprüft werden.

Die Suche nach Autorennamen stellt eine vernünftige
Recherchestrategie dar, da Autoren fast immer innerhalb
eines begrenzten Fachgebiets publizieren.

Es wurde ein Autor aus dem Bereich der
Geisteswissenschaften ausgewählt, von dem bekannt ist, dass
er in großem Umfang seine wissenschaftlichen Volltexte im
Internet verfügbar gemacht hat: der Historiker Klaus Graf.
Einschlägige Publikationen wurden aufgrund Vorwissens bzw.
durch Vergleich mit der im Netz einsehbaren
Publikationsliste [3] aus den Trefferlisten ausgefiltert.

Die Darstellung der Ergebnisse erfolgt zunächst zu den
einzelnen Suchmaschinen, wobei die Reihenfolge sich nach
der Anzahl der gefundenen Volltexte richtet. Zu
detaillierten Angaben über die Suchmaschinen siehe
Pieper/Wolf 2009.

1. BASE

http://www.base-search.net/

Mit der Suche aut:"Graf,Klaus" werden 73 Treffer gefunden,
die aus diversen Dokumentenservern stammen. Zwei Treffer in
DigiZeitschriften, die sich nicht auf den Historiker
beziehen, sind abzuziehen. Ob ein INTUTE-Katalogisat, das
auf eine Website verweist, als Volltext zu betrachten ist,
kann dahingestellt bleiben. aut:"Klaus Graf" erbringt 3
weitere Treffer, von denen einer (eine estnische
Übersetzung) einschlägig ist. Damit ergibt sich als Anzahl
der gefundenen Volltexte 72.

Als Besonderheit ist zu vermerken, dass DigiZeitschriften
in BASE überwiegend lizenzierte Inhalte enthält und die
Angabe von Pieper/Wolf 2009, BASE lege besonderen Wert auf
die freie Zugänglichkeit, daher unzutreffend ist. Im
vorliegenden Fall sind allerdings alle 7 Artikel des
untersuchten Autors auf dessen Wunsch hin frei zugänglich.

2. OAIster

http://www.oaister.org/

Gesucht wurde mit der (voreingestellten) Autor-Phrase: graf
klaus. Alle 67 Treffer beziehen sich auf den Historiker.
Die Suche mit der Autorphrase klaus graf erbringt auch hier
den estnischen Artikel. Die Liste von graf und klaus in
verschiedenen Autorfeldern: 88 Treffer.

Es wurden im wesentlichen die gleichen Quellen wie bei BASE
ausgewertet, DigiZeitschriften fehlt allerdings ebenso wie
Intute.

Da die CiteBase-Treffer E-LIS-Dubletten sind, sind drei
Eprints abzuziehen. Insgesamt ergibt sich eine Gesamtzahl
von 65 Volltexten.

BASE findet in Freidok mit 33 Dokumenten eines weniger als
OAIster, da nur OAIster die Beiträgerliste des Sammelbands
"1495" für das Autorenfeld auswertet. (Der
Freidok-Komplettbestand des Autors beträgt aktuell nach
Uploads der letzten Tage 38 Dokumente.)

Hingewiesen sei auch auf die inakzeptablen Metadaten der
bibliothekarischen (!) Zeitschrift LIBREAS auf dem
Humboldt-Server.

3. Google Scholar

http://scholar.google.com/

Ob man mit autor:"klaus graf" (111 Treffer) oder
autor:"graf klaus" (116 Treffer) sucht (beidesmal als
Phrase), hat hinsichtlich der gefundenen Volltexte keine
Auswirkung.

Während davon auszugehen ist, dass die über 100 im Netz
befindlichen Publikationen des untersuchten Autors
weitgehend komplett in der Google-Websuche gefunden werden,
ist das Ergebnis von Google Scholar enttäuschend. Es werden
9 Volltexte angezeigt, davon erkennt GS 5 als solche, d.h.
sie haben das grüne Dreieck der Volltextzugänglichkeit.
Zusätzlich werden 25 weitere Publikationen des Autors als
"Zitate" nachgewiesen, die aber laut Publikationsliste
ebenfalls fast alle online zugänglich sind.

Besonders frappierend ist die unvollständige Auswertung der
Schriftenserver Freidok und Artdok durch GS, aus denen
lediglich vier Dokumente gefunden werden.

4. ScientificCommons

http://en.scientificcommons.org/

Diese Suchmaschine ist am wenigsten benutzerfreundlich,
eine erweiterte Suche existiert nicht. klaus graf findet
376 Treffer, man kann jedoch den verlinkten Autorennamen
Graf, Klaus anklicken und so die Trefferanzahl reduzieren.
Angesichts der großen Anzahl von Dubletten wurde auf eine
Auszählung der reduzierten Liste verzichtet. Ausgewertet
wurden nur 4 Quellen: DIPP (4), E-LIS (3), philo.at (1),
DOAJ-articles (1, der estnische Artikel). Insgesamt also
ebensoviele Volltexte wie GS: 9.

Wieso die zahlreichen Freidok-Publikationen komplett
fehlen, da andere geisteswissenschaftliche
Freidok-Publikationen via BSZ-BW vertreten sind, siehe z.B.
http://en.scientificcommons.org/2155509 , kann nicht
erklärt werden.

5. Scirus

http://www.scirus.com

Es ergeben sich 169 Treffer mit dem Autor-Feld Klaus Graf.
Die ersten einschlägigen Treffer auf den Plätzen 20=23 (23
Dublette), 21=22. Ausgewertet wird in der Gruppe der
Digital archives nur E-LIS. Als Webquellen finden sich zwei
(beliebige) Beiträge des Autors zur Mailingliste
Mediaevistik. Hinzu kommt noch der LIBREAS-Treffer der
Humboldt-Universität. Insgesamt nur 6 Volltexte.

RESULTATE

OAIster und BASE liegen etwa gleichauf mit 65 bzw. 72
Treffern. BASE bietet unbestreitbar mehr Suchkomfort.
Ausgewertet werden im wesentlichen die gleichen Quellen.

Abgeschlagen mit 6-9 Volltexten sind GS, ScientificCommons
und Scirus. Zusätzliche Treffer gegenüber OAIster/BASE bot
nur SCIRUS mit zwei Mailinglistenbeiträgen, bei denen
offenbar das Autorfeld ausgewertet wurde.

Die Publikationsliste des Autors [3] bietet die Möglichkeit
der Gegenkontrolle. Von den in Schriftenservern
publizierten Beiträgen fehlt nur pedocs, das weder von
OAIster noch BASE erfasst wird. Nicht erwartet werden
können z.B. die Aufsätze der Homepage des Autors, da
auswertbare Metadaten fehlen. Im Bereich bibliothekarischer
Retrodigitalisate (Blätter für deutsche Landesgeschichte,
NDB) könnten diese zwar unschwer verfügbar gemacht werden,
davon wird jedoch abgesehen. (So gibt etwa die UB Bielefeld
die Daten der Artikel der Aufklärungszeitschriften nicht
via OAI frei, sondern behält diese exklusiv BASE vor.)

Klaus Graf

[1] http://archiv.twoday.net/stories/5503823/
[2]
http://eprints.rclis.org/15558/1/wissenschaftliche_Dokumente.pdf
[3] Publikationsliste mit Online-Nachweisen:
http://archiv.twoday.net/stories/4974627/




Listeninformationen unter http://www.inetbib.de.