[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] HatSchonWer: Die GND mit Solr indexiert



Hallo Herr Reh,

Am 31.05.2010 12:55, schrieb Uwe Reh:
Auch wenn Sie es befürchtet haben, es geht mir 'nur' um das Retrival.
Allerdings hilft mir der XPathEntityProcessor wenig weil ich die
Lieferung im N-Triple-Format verwenden möchte. (Ist auch kein Problem,
aber ich hatte gedacht, es hätte schon jemand einen eigenen
(pre)Processor geschrieben)
Nachdem ich das ZIP-Archiv von der DNB schließlich entpackt hatte, 
musste ich auch feststellen, dass die Daten gar nicht im RDF/XML Format 
vorliegen. Eine Umwandlung von N-Triples in RDF/XML sollte aber möglich 
sein.

Wenn Sie das Rad nicht gänzlich neu erfinden wollen, dann sollten Sie 
zumindest mal einen Blick auf die bzw. in den Quellcode der Semantic 
Information Retrieval Engine SIREn [1] werfen. Diese verwendet unter der 
Haube ebenfalls Solr/Lucene und steht unter der Apache 2.0 Lizenz.

Beste Grüße,
Sascha Szott

p.s. Vielleicht bietet ja die DNB in Zukunft auch direkten Zugriff auf 
ihren Triplestore an. Dann könnte man sich auf einfache Weise per SPARQL 
CONSTRUCT Teilgraphen (in RDF/XML) extrahieren und hätte sich so einen 
Vorverarbeitungsschritt gespart.

[1] http://siren.sindice.com/


@Joachim
Danke für den Tip mit sparqlite, aber ich versuche mich gerade aus
meinem Denkkorsett der klassischen Kataloge zu lösen. Darum erst mal Solr.

@Till
Das Heilige Römische Reich Deutscher Nation
(http://de.wikipedia.org/wiki/Heiliges_R%C3%B6misches_Reich) ist einfach
das Standardbeispiel für schlechte Einbindung von Normdaten. Auch bei
HeBIS und sogar bei der DNB erhält mensch so imposante Treffermengen.
Als Gegenbeispiel kann ich dir aber das Schlagwort "Computerlinguistik"
(Synonym zu >http://d-nb.info/gnd/4035843-4) geben. Noch sind Dewey, RVK
und andere Klassifikationen in den Katalogen noch nicht so verbreitet,
dass wir darauf verzichten können.
Genug SWD, du hast geschrieben:
Mit der GND haben wir noch nichts gemacht. Wir kämpfen derzeit mit der
sinnvollen Anwendung von Normdaten, wie sie klassisch genutzt werden
Damit kämpfen viele und ich hoffe von euren Erfahrungen profitieren zu
können. Ich will versuchen etwas gegen den Strich zu denken. Was spricht
dagegen, unter einer Oberfläche zwei oder mehrere Indices zusammenzufassen?
Zum Beispiel einen für die Normdaten und einen für die Titeldaten, also
den uralten Gedanken des Normalisierens auch auf Indices anzuwenden. OK,
bei den heutigen Plattenkapazitäten macht sich die Ersparnis von
einigen/vielen Gigabyte im Index nicht wirklich bemerkbar aber ich
vermute, das die Vorteile im Handling die aufwendigere Bearbeitung von
Suchanfragen wieder wett machen.



Nochmal Danke an Alle

Viele Grüße
Uwe Reh


-- 
Sascha Szott
Kooperativer Bibliotheksverbund Berlin-Brandenburg (KOBV)
c/o Konrad-Zuse-Zentrum fuer Informationstechnik Berlin (ZIB)
Takustr. 7, D-14195 Berlin
Zimmer 4357
Telefon: (030) 841 85 - 457
Telefax: (030) 841 85 - 269
E-Mail: szott@xxxxxx
WWW: http://www.kobv.de

-- 
http://www.inetbib.de


Listeninformationen unter http://www.inetbib.de.