[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Google - die eierlegende Wollmilchsau?



Am Mittwoch, 7. Mai 2003 14:58 schrieb Bernhard Eversberg:
> On 7 May 03, at 4:32, Sandra Kirn wrote:
> > Wichtig fuer eine
> > Suchmaschine ist, dass sie die Beziehung der Suchworte
> > miteinander verknuepfen kann und dadurch die
> > Suchanfrage des Nutzers besser versteht. Dies bringt
> > allerdings nur etwas, wenn die Rohdaten (eben z.B.
> > XML) einen Mehrwert als reines HTML bieten.
>
> XML selber bringt's nicht, sondern man braucht zusaetzlich
>
> 1. ein XML-Schema fuer die Strukturierung der Daten
>
> 2. Skripte (in XSLT oder was immer), die mit dem Schema umgehen koennen
>
> 3. qualitaetvolle Daten
>
> Nummer 3 ist am wichtigsten. Schrott wird nicht dadurch veredelt, aber auch
> nicht dadurch fuer Algorithmen als Schrott erkennbar (das waer schoen!),
> dass er in XML verpackt wird. Er sieht dann nur serioeser aus und braucht
> mehr Platz. Qualitaetvolle Daten entstehen aber nicht von selber und sind
> leider auch nicht gut per Algorithmus als solche zu erkennen. Das Web ist
> nicht gerade voll davon.

Sehr geehrter Herr Eversberg,

sie brauchen nicht unbedingt XML-Schema. Sie brauchen auch nicht unbedingt 
stark strukturierte (mühsam vorverarbeitete) XML-Daten. XSLT dient zur 
Transformation beliebiger XML-Dokumente, spielt also auch keine zentrale 
Rolle. Es reichen die Daten in halbwegs der Form, wie Sie sie nachher finden 
wollen. Über spezielle Verfahren (Vektorisierung, Topic Maps usw. - Lumrix 
ist ein Beispiel, aber auch die Arbeitsweise von FAST Data Search, siehe 
http://www.scirus.com) können Maschinen über eine beliebige Menge an 
semistrukturierten Daten (Kataloge, Abstracts, Volltexte usw) mit geeigneten 
Verfahren ohne weiteres Zutun die nötigen Parameter gewinnen, die als 
Grundlage für die schnelle Orientierung in späteren Suchanfragen dienen. Sie 
können sich das als eine Art automatisierte Verschlagwortung vorstellen, die 
mit Metriken in mathematischen Suchräumen arbeitet. Mit den Details muss sich 
ein Nutzer nicht beschäftigen. Moderne Suchtechnologien in XML leisten mehr, 
als Sie womöglich ahnen.

Viele Grüße

Jörg Prante

-- 
Jörg Prante
Dipl.-Inform.
IT-Services Digitale Bibliothek
Online-Fernleihe und Dokumentlieferdienste
Hochschulbibliothekszentrum NRW (HBZ)
Postfach 270451, 50510 Koeln
Telefon +49-221-40075-156, Fax +49-221-40075-190
http://www.hbz-nrw.de/literatur/fernleihe



Listeninformationen unter http://www.inetbib.de.