[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

off-topic: Zahlenmaterial zur Volltextindizierung von Web-Sites



Hallo und guten Tag,

vielen Dank für die Feedbacks bzgl. Stopwortlisten. Die Rückmeldungen
haben mir gezeigt, daß ich wohl nicht der einzige hier bin, der sich
mit dem Themenkomplex Indizierung von Websites, Volltextsuche, Recherche-
systeme etc. beschäftigt.

Da hier gerade ein kleiner "Feldtest" läuft, hier mal ein wenig
empirisch ermitteltes Zahlenmaterial. Vielleicht interessiert's ja
jemanden aus der Runde...


- Text-zu-Keyword-Ratio:

  Zahl Dokumente:	3000	6000	10000
  Verh. neue Keywords:	  40	  24	   20

  Das Keyword-Verhältnis gibt an, wie viele indexierungsfähige Suchworte pro
  Dokument im Schnitt gefunden wurden. Die Software macht dabei keine
  linugistischen Spielereien, sondern nur Stringvergleiche. Eingabematerial
  waren vornehmlich deutsche und englische WWW-Seiten, ein paar "Ausreißer"
  ließen sich aber nicht vermeiden.

- Erschließungsgrad:

  Bei einem Start mit ca. 100 Eingabe-URLs ergeben sich nach ca. 10000
  bearbeiteten Texten ca. 2400 bearbeitete Hosts, weitere ca. 12600 wurden
  noch gefunden und stehen zur Indexierung an. Das ist eine "Adreß-Ausbeute"
  von bisher 226 Hosts pro eingegebener URL (nach ca. 72 Stunden Laufzeit
  hinter einer ISDN-Standleitung).

- Die "Schrottquote" bei Links, speziell syntaktisch inkorrekte Angaben,
  ist mit über 1 % erstaunlich hoch. Zu "baumelnden" Links bekomme ich leider
  mit dem aktuellen Softwareausbau keine Zahlen...

- Nettotext: Das durchschnittliche Aufkommen an Klartext pro Seite liegt
  deutlich unter 4 KB. Bzw. anders herum formuliert kann man, wenn man die
  ersten 4 KB Nettotext einer Seite speichert, einen signifikanten Teil
  der überhaupt erfaßten Textinformation aus der Datenbank wiedergeben.

- Die "Portalseiten-Krankheit" in Zahlen: Fast ein Drittel aller
  bearbeiteten Seiten hat eine Text-zu-Seitengröße-Ratio von schlechter
  als 10, d. h. auf 1 KB Nettotext kommen mehr als 10 KB HTML.

- Indexierungszeit: Für eine großflächige Volltext-Indexierung von WWW-Seiten
  muß man bei Verwendung handelsüblicher PC-Technologie mit Verarbeitungs-
  zeiten von durchschnittlich ca. 20 Sekunden rechnen. Das Problem bei
  der Indexierung von Dokumenten ist also nur sekundär die Internet-Anbindung,
  sondern primär das Serversystem selbst. (Diese Zahl ist natürlich mit
  Vorsicht zu genießen, weil's abhängig von der eingesetzten Software)


Ferner noch ein paar Dinge, die sich nicht in Zahlen ausdrücken lassen:

- META-Keywords sind mittlerweile anscheinend vollständig unbrauchbar.
  Sie werden häufig anscheinend von den Websitebetreibern so gesetzt, daß
  jede Seite ein Set von Keywords zugewiesen bekommt, welches die ganze
  Site abdeckt. Das ist im Sinne einer grundsätzlichen Auffindbarkeit aus
  marketingtechnischen Überlegungen heraus vielleicht nicht dumm, führt
  aber sachlich zu mäßig schwachsinnigen Ergebnissen. Beispiel:

	~library AND NOT (CONTENT ~library biblio* bücher*
		          OR TITLE ~library biblio* bücher*)

  liefert bereits auf kleinem Datenbestand eine zweistellige Zahl Seiten,
  die "library" oder ähnliche Worte in den META-Tags, aber weder im Titel
  noch im Content enthalten (z. B. www.cyberpatrol.com, der zwar mittelbar
  vielleicht mit Bibliotheken in Verbindung gebracht werden mag, wo man
  sich aber über die Verwendung des Keywords "library" sicher streiten mag).

  Noch krasser wird es bei "META sex AND NOT CONTENT sex*", aber das wollen
  wir lieber gar nicht wissen... :-)


Das System, mit dem diese Daten ermittelt wurden, wird demnächst im Rahmen
eines Software-Feldtests öffentlich zugänglich gemacht. Dazu muß aber eines
noch ein etwas größerer Initialdatenbestand (ein paar hunderttausend Seiten)
aufgebaut werden, außerdem reichen die bisherigen hardwaretechnischen
Voraussetzungen (Hauptspeicher!) für einen offenen Betrieb noch nicht aus.

Zunächst wünsche ich mal einen sonnigen ersten Mai, bei uns hier ist das
Wetter traumhaft, werde meinen Schreibtisch gleich auch wieder verlassen...

Viele Grüße aus Ostwestfalen,
Daniel Rödding


-- 
Daniel Roedding                                       phone: +49 5252 9838 0
daniel _at__ roedding.de                                      fax: +49 5252 9838 20


Listeninformationen unter http://www.inetbib.de.