[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Langzeitarchivierung der Wikipedia



Karl Eichwalder schrieb (in der bibliothekarischen Mailingliste INETBIB in einem Thread Ãber u.A. die Langzeitarchivierung der Wikipedia):

Wenn doch die Angebote der DDB und all der anderen Bibliothek nur so
frei und offen wÃren, wie die Wikipedia-Daten...

Zugegeben, das SQL ist (noch) etwas MySQL-spezifisch, aber SQL ist ein
internationaler Standard.  Und wenn alle Stricke reiÃen, kann man die
Wikipedia-Dumps sogar mit einem Texteditor lesen.

7-Bit ASCII ist auch ein Standard - dadurch wird noch lange nicht alles, was sich darin ausdrÃcken lÃsst standardisiert.


PS: Die Deutsche Bibliothek bietet seit 2001 eine Schnittstelle zur
dauerhaften Archivierung deutscher Netzpublikationen an:
http://deposit.ddb.de/netzpub/np_stepbystep.htm >

Genau die dort gewÃnschten Archivformate stehen doch bei http://download.wikimedia.org/ zu VerfÃgung - gut, die DDB kÃnnte vielleicht auch .bz2 akzeptieren. Hinweise zum Dateiformat der eigentlichen Publikation wÃren auch nicht schlecht.

Die Inhalte der Wikipedia sind zwar offen und frei verfÃgbar, aber bislang leider nicht standardisiert. Der einzige Standard ist die MediaWiki-Software, die zwar ebenso offen und frei aber ebensowenig standardisiert und in stÃndiger Entwicklung begriffen.


Zur Zeit wird zumindest ein XML-Parser fÃr die Syntax der gespeicherten Texte entwickelt - bis zu einer festen (ÃberprÃfbaren und zwingenden) Standardisierung der gesamten Inhalte (SQL-Tabellenstruktur und Wikisyntax) ist es jedoch noch ein langer Weg. Bis dahin wird der gesamte Inhalt samt Bearbeitungsgeschichte im Bereich von Terabyte angelangt sein (zur Zeit 27.626 GByte gepackt!). Die Langzeitarchivierung (im bibliothekarischen Sinne als LangzeitverfÃgbarkeit) dieser Daten ist keine Aufgabe, die man eben mal so wie ein normales Backups macht.

So wie sich die Wikipedia zur Zeit entwickelt, halte ich es nicht fÃr unangemessen zu behaupten, dass sie irgendwann den Rang eines Weltkulturerbes erreicht. Der Verlust der Daten aus der Angangszeit wÃre wirklich schade. Schon jetzt ist es in EinzelfÃllen schwierig, den Stand und das Erscheinungsbild einzelner Artikel zu bestimmten Zeitpunkten zu ermitteln (zumindest wenn so genannte Vorlagen verwendet wurden). Die Langzeitarchivierung der Wikipedia ist natÃrlich in Erster Linie Sache der Wikimedia Foundation bzw. der im Projekt Engagierten selbst, aber langfristig sind bibliothekarische Kenntnisse gefragt.

Gruss,
  Jakob VoÃ

P.S: Folgendes Zitat sollte zu Denken geben. Von:
http://en.wikipedia.org/wikistats/DE/TablesWikipediaDE.htm

"Hinweis: Die Zahlen fÃr die ersten Monate sind zu niedrig.
Ein GroÃteil der Versions-Geschichten bis Sommer 2002 ging leider verloren."


Listeninformationen unter http://www.inetbib.de.