[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] BASE. Scirus. ...



Guten Tag Herr Graf,

erstmal freut es mich, dass Sie BASE in Ihrem Blog als "ernsthaften 
Konkurrenten für OAIster" bezeichnen.

Zum Thema Volltextsuche: BASE als Service basiert hauptsächlich auf dem 
OAI-"Protocol for Metadata Harvesting", von Volltextindexierung ist da erst mal 
keine Rede.Ob im Hinblick auf das Verhältnis Recall/Precision nun reine 
Metadaten- oder Volltextindexierung besser oder schlechter ist, mag ich nicht 
entscheiden; das Ganze hängt in der Tat aber auch von der Qualität der 
OAI-Metadaten ab, die im OAI-Umfeld in vielen Fällen verbesserungswürdig ist 
und auf der Service-Seite enormen zusätzlichen Aufwand im Hinblick auf 
Normalisierung der Daten erfordert. Durch DINI-Zertifikat, DRIVER-Guidelines 
und standardisierte Repository-Software ist schon einiges erreicht worden, wenn 
Open Acess als ernsthafte Alternative zu den Angeboten kommerzieller Verlage 
weiter an Boden gewinnen soll, dann lautet meine Forderung eher: die Qualität 
der OAI-Metadaten muss verbessert werden und sollte möglichst so gut sein wie 
die von kommerziellen Anbietern (Herr Wagner hat ja welche genannt). Und wenn 
das auf Seiten der Data Provider trotz Zertifikaten, Guidelines usw. nicht oder 
nur unzureichend funktioniert, dann muss das mit automatischen Verfahren 
versucht werden und daran arbeiten wir.

Das Thema Volltextindexierung von OAI-Quellen und die Unterschiede zwischen 
Harvesten und Crawlen hatte ich Ihnen vor 2 Jahren schon mal per Mail  
erläutert, da das offensichtlich fruchtlos war, brauche ich das nicht 
wiederholen. Nur soviel: es ist aufwändiger, aus OAI-Metadaten den Link zu  
einem PDF-Volltext zu analysieren (der Link steht leider nicht immer im 
entsprechenden DC-Feld), das PDF zu holen (häufig gibt es ja auch noch mehrere 
Teile zu einem Metadatensatz), es - wenn möglich - in Text umzuwandeln und zu 
indexieren und wieder mit den dazugehörigen OAI-Metadaten zu verknüpfen, als 
eine Webseite zu Crawlen und einem Link zu folgen.

Zum Thema Ranking in BASE: in der Tat ist es so, dass einige offene 
Volltextangebote (z.B. Gutenberg, Bartleby, Wiki-Books), die nicht über eine 
OAI-Schnittstelle verfügen, von BASE gecrawlt werden. Dokumente aus diesen 
Quellen erscheinen dann in der Trefferliste weit oben, wenn z.B. Novalis im 
Title-Tag oder in Links vorkommt und das Verhältnis von "Document Frequency" zu 
"Inverse Document Frequency" entsprechend hoch ist (es gibt noch eine Reihe 
weitere Ranking-Faktoren, die zu erläutern das Ganze hier sprengen würde). Das 
ist Suchmaschinen-Standard und Sie haben in BASE die Möglichkeit, die 
Treffermenge über das Drill-Down entsprechend zu bearbeiten. Das haben Sie z.B. 
in OAIster nicht und es wäre ganz nett, wenn Sie bei Ihren 
Suchmaschinen-Vergleichen solche Aspekte - oder auch den Unterschied von 
OAIster und BASE bezogen auf die Such- und Antwortzeiten - erwähnten, bevor Sie 
zu der Behauptung kommen, BASE sei unbrauchbar.

Viele Grüße
Dirk Pieper





-- 
http://www.inetbib.de


Listeninformationen unter http://www.inetbib.de.