[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Internet-Archiv



Hallo!

Ulrich Babiak schrieb
> Dennoch gibt es erste Versuche - ich empfehle in diesem Zusammenhang
> einen Blick auf www.alexa.com und www.archive.org. Dort kann man
> heute schon Seiten bekommen, die auf den Originalservern nicht mehr
> vorhanden sind. 

Dazu moechte ich einiges anmerken. Das hier 
gemeinte Projekt, das im vergangenen Jahr als 
*Ressource fuer zukuenftige wissenschaftliche 
Nachforschungen* gegruendet wurde, hat mich
im ersten Moment begeistert. Toll! Eine Grundlage 
zur Darstellung der WWW-Genese. Doch schon 
damals fragte ich mich, wie das wohl gehen soll, 
wenn ich doch selbst fast taeglich an meinen Seiten 
*schraube*. So oft _kann_ kein Spider bei mir 
vorbeischauen. Und wie sollte das bei Seiten aussehen, 
die eigentlich gar nicht als *statische* HTML-Datei
vorliegen, sondern durch Datenbankanbindung o.ae. 
generiert werden?

Nachdem jetzt Alexa (abgeleitet von library of 
alexandria) an den Start ging, wurde mir einiges 
klar. Ich will jetzt nicht en detail gehen (ich habe 
das Projekt in einem Beitrag naeher beschrieben:
http://www.intern.de/97/17/4.htm), aber Alexa ist 
m.E. nur sehr bedingt tauglich: 

1. Der Datenbestand ist aehnlich spaerlich wie bei 
anderen Suchmaschinen (nichts anderes ist Alexa).
Bei mehreren Tests habe ich festgestellt, dass 
maximal 1/3 aller HTML-Dateien einer Site im 
Volltext gespeichert (nicht indiziert) werden. Dabei 
werden Aktualisierungen nicht beruecksichtigt. 
Einmal gespidert, werden Seiten wohl nie mehr 
besucht. 

2. Die weiteren Angaben der Alexa-Software sind 
mehr als zweifelhaft. Alexa gibt (angeblich) an, wie 
*bekannt* eine Site ist. Wie das gehen soll, wird 
nicht erwaehnt, aber vermutlich wird innerhalb des 
gesamten Datensatzes ausgelesen, wie oft ein Link
auf die entsprechende Domain von anderen Sites 
gesetzt wurde. 

3. Die Seiten, die es inzwischen nicht mehr gibt bzw. 
die bei Alexa *archiviert* sind, koennen kaum genutzt
werden. Sie sind nicht auf einer Festplatte, sondern 
auf einem Band gespeichert. Der Abruf dauert laut 
Alexa bis zu einer Viertelstunde. Ich habe laenger 
gewartet. Sehr, sehr unpraktisch!

Ueberhaupt wurde mir erst nach der Veroeffentlichung 
der Alexa-Software klar, wozu das Ganze dient. 

Der Clou bei Alexa ist es naemlich, dass in einem 
weiteren Fenster *Linkempfehlungen* zu thematisch
aehnlichen Sites erfolgt. Und damit wird das Projekt 
finanziert. Wer sich hier einkauft, erhoeht die 
Besucherkontakte auch ohne Banner. 

Trotzdem Anerkennung: Bisher habe ich festgestellt,
dass viele (etwa 25-50%) der Linkempfehlungen 
wirklich auf *verwandte* Sites gerichtet sind. Und 
dieses Ergebnis ist gar nicht so schlecht. 

> Ich werde dieses "Internet Archiv" im Oktober
> besuchen und - bei Interesse - gern darueber berichten.

Zumindest mich wuerde das brennend interessieren!

Gruss

Wolfgang Bleh 

**********************************************
Redaktion Internet Intern, Wolfgang Bleh               
Tel.: 06732/960318     http://www.intern.de/


Listeninformationen unter http://www.inetbib.de.