[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Erfassung der Hochschulschriften-Server in MetaGer (war: Dissertationen im Deep Web)



Liebe Liste,

das Subject dieser Mail fasst es bereits kurz zusammen: wir haben uns
dank der Diskussionen hier in inetbib die Hochschulschriften-Server und
Ihre Erfassung von Suchmaschinen angesehen. Das Statement von Herrn Graf:

> Wesentliche Teile der Inhalte der Hochschulschriftenserver
> sind nicht in den Suchmaschinen auffindbar

... trifft in voller Schaerfe zu, (bis vorgestern :-) auch fuer MetaGer.
Der Blick in die Hochschulschriften-Server zeigt dann andererseits, dass
dort wahre Schaetze verborgen sind (Dissertationen, Habilitationen,
usw), welche das "Licht der Suchmaschinen-Oeffentlichkeit bisher nie
erblickten".

Also haben wir uns daran gemacht, einen Crawler von uns ins diese Tiefen
des deep web zu schicken, und dessen Ergebnisse in MetaGer integriert.
Wenn Sie eine Suche in MetaGer machen, erkennen Sie nun die Ergebnisse
der Hochschulschriften-Server an der Kennzeichnung "Forschungsportal5".

Da diese Treffer sicherlich zu den qualitativ hochwertigsten  zaehlen,
die das WWW zu bieten hat, werden sie durch unser Ranking "weit oben" in
der Ausgabe gelistet.

Wir haben bisher damit einen grossen Teil der HTML-Dokumente auf den
Hochschulschriften-Servern erfasst; PDF wird spaeter dazukommen. Mit
Sicherheit ist diese Erfassung nicht vollstaendig: Wenn Ihnen auffaellt,
was dort fehlt: bitte mailen Sie es mir! Falls Sie die Abfrage der
Hochschulschriftenserver separat testen moechten: hierzu gibt es
ein Interface unter der Adresse http://metager.de/index-hss.html

Wenn es *MOEGLICH* ist, etwas zu erfassen, was wir noch nicht haben,
dann werden wir das tun. Damit komme ich zu einem weiteren Punkt, den
ich hier ansprechen moechte: das Crawlen der Hochschulschriften-Server
ist von aussergewoehnlicher Schwierigkeit (deshalb werden es die
(anderen) Suchmaschinen bisher auch kaum im Index haben).

Daher soll auch folgendes hier mal glasklar gesagt werden:
Ohne die wertvolle Hilfe von Herrn Graf haetten wir das Crawlen
der Hochschulschriften-Server NIE hingekriegt!

Denn die Schaetze dieses deep web sind *SO* akribisch versteckt, dass
ohne Insiderwissen kaum ein Rankommen moeglich ist. Folgendes fiel
besonders auf:

- Einige Hochschulschriften-Server haben explizit das Crawlen
  per robots.txt-Datei verboten; ob das Absicht ist??
    http://miless.uni-essen.de/
    http://www.uni-hohenheim.de/ub/opus/
    http://ub-dok.uni-trier.de/

- Viele der der Opus-Hochschulschriften-Server haben ihren
  crawlbaren Inhalt kaum verlinkt, sondern wir haben ihn nur
  dank der Mitarbeit von Herrn Graf gefunden, dass diese Server
  haeufig einer (offenbar geheimen ;-) Konvention folgen, dass
  sich naemlich hinter
  http://[OPUS-Servername]/volltexte/opus-index/opus-indexliste.html
  die crawlbaren Schaetze verbergen.
  Mir ist raetselhaft, warum diese genannte Adresse nicht generell
  verlinkt wird - ob das Absicht ist???

- Weiterhin gibt es eine Fuelle von "Kleinigkeiten", die das Crawlen  
  schwer machen, wie:
  - die Vermischung der Hochschulschriften mit anderen Server-Inhalten,
  - die Verteilung der Hochschulschriften auf unterschiedliche weitere
    Server,
  - die unveraenderte Uebernahme dynamisch generierter "Monster-URLs",
    wie z.B.:
    http://publikationen.stub.uni-frankfurt.de/ergebnis.php?suchart=teil&Lines_$

*WARUM* wird es den Suchmaschinen so schwer gemacht, in diesen
wertvollen Bereich vorzustossen?

Vergessen Sie bitte ueber diese Frage (und diesen meinen bisher
laengsten Beitrag in inetbib ;-) nicht, mir mitzuteilen, wenn bei
unserer bisherigen Erfassung der Hochschulschriften etwas fehlt. Wenn es
"holbar"/crawlbar ist, dann werden wir das tun.

Mit den besten Gruessen,
Wolfgang Sander-Beuermann
--
Dr. Wolfgang Sander-Beuermann        Tel.: use email         wsb@xxxxxx
Projektleiter Suchmaschinenlabor     http://metager.de/suma.html
Regionales Rechenzentrum fuer Niedersachsen (RRZN), Univ.Hannover
http://www.rrzn.uni-hannover.de/


Listeninformationen unter http://www.inetbib.de.