[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Langzeitarchivierung der Wikipedia



[UTF-8-Alert!]

Jakob Voss <jakob.voss@xxxxxxxxxxx> writes:

> Die Inhalte der Wikipedia sind zwar offen und frei verfÃgbar, aber
> bislang leider nicht standardisiert. Der einzige Standard ist die
> MediaWiki-Software, die zwar ebenso offen und frei aber ebensowenig
> standardisiert und in stÃndiger Entwicklung begriffen.

Es ist nicht Aufgabe des Archivars, die Form der Inhalte oder gar die
Inhalte vorzuschreiben.  Er mag wohl Hinweise geben, welche Dinge
besonders langlebig sind (sÃurebestÃndiges Papier, SQL-Standard etc.);
aber beispielsweise zu fordern, Briefe seien nach DIN zu schreiben, wÃre
eine Fehlidee.  Ebenso ist es eine Fehlidee, wenn der Archivar fordert,
eine EnzyklopÃdie sei inhaltlich standardisiert zu schreiben.

Ich freilich wÃre fÃr das Schreiben auf Grundlage der TEI-DTD.  Das
wurde jedoch mehrfach als nicht wiki-gemÃà zurÃckgewiesen, so daà ich
mich nun von dem Projekt selbst zurÃckgezogen habe: als EnzyplopÃdie
betrachtet, verschlingt das Projekt zu viele Ressourcen (insb. die Zeit
der Bearbeiter) und als Kommunikationsplattform ist es mir im Moment
nicht anziehend genug.

> Bis dahin wird der gesamte Inhalt samt Bearbeitungsgeschichte im
> Bereich von Terabyte angelangt sein (zur Zeit 27.626 GByte gepackt!).

Sind es wirklich 27.626 GByte oder doch eher "nur" 27,626 GByte?

> Die Langzeitarchivierung (im bibliothekarischen Sinne als
> LangzeitverfÃgbarkeit) dieser Daten ist keine Aufgabe, die man eben
> mal so wie ein normales Backups macht.

Klar, daà das nicht einfach ist.  Aber es sollte mich sehr wundern, wenn
die Archive im Jahre 2004 noch kein Konzept anbieten kÃnnen, wie man in
einem solchen Fall vorzugehen hat.  Sollte das wirklich noch unklar
sein, wÃre es schon hilfreich, wenn "nur" 1x mtl. oder vierteljÃhrlich
von einer Institution die Daten weggesichert werden.

Simple Mirrors wird es wohl doch schon geben, vielleicht sogar schon
einen wie archive.org, der Zeitschichten aufbewahrt.

> So wie sich die Wikipedia zur Zeit entwickelt, halte ich es nicht fÃr
> unangemessen zu behaupten, dass sie irgendwann den Rang eines
> Weltkulturerbes erreicht. Der Verlust der Daten aus der Angangszeit wÃre
>  wirklich schade. Schon jetzt ist es in EinzelfÃllen schwierig, den
> Stand  und das Erscheinungsbild einzelner Artikel zu bestimmten
> Zeitpunkten zu ermitteln (zumindest wenn so genannte Vorlagen verwendet
> wurden).

Bei den gelÃschten (URVs etc.) geht es gar nicht mehr.  Durch
Umbenennung der Bilder sind manchen Altversionen auch fragmentarisch.
Und dann kommt noch hinzu, daà theoretisch alles Versionen in den
27.626/27,626 GByte GByte enthalten sind, praktisch aber Ãltere
Versionen nur mit der Ãlteren Software richtig angezeigt werden kÃnnen.
Archivieren sollte man aber gleichwohl - notfalls liest man eben die
Dumps mit einem Texteditor.

> P.S: Folgendes Zitat sollte zu Denken geben. Von:
> http://en.wikipedia.org/wikistats/DE/TablesWikipediaDE.htm
>
> "Hinweis: Die Zahlen fÃr die ersten Monate sind zu niedrig.
> Ein GroÃteil der Versions-Geschichten bis Sommer 2002 ging leider
verloren."

Sollten die sich auf privaten Festplatten wirklich nicht mehr auftreiben
lassen?  Wenigstens BruchstÃckweise?  Hat jemand schon einmal
archive.org daraufhin genau untersucht?

So leicht verliert das Internet eigentlich nichts, wenn sich die Dinge
geradlinig spiegeln lassen.  Sogar als Gutenberg-DE
(http://gutenberg.aol.de) mal zweitweilig verschwunden war, lieà sich
ein Mirror lokalisieren.

--
                                                         |      ,__o
                                                         |    _-\_<,
http://www.gnu.franken.de/ke/                            |   (*)/'(*)


Listeninformationen unter http://www.inetbib.de.