[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] Neu in der BLO: Volltextsuche in 40.000 Bavarica der Bayerischen Staatsbibliothek




Was ist daran so schlimm? Natürlich hat Google die besseren Optionen. 
Aber statt einer Seite als Definitionseinheit sollte man sich doch wie 
bei Proquest/Chadwyck Healey die Breite mit einem Befehl wie "within x 
words" selbst bestimmen können.
Oder wenigstens von Hand definierter "sententiae" - kostet ein Vermögen 
an Pwersonalmitteln, wie ich aus den frühen "eMGH"-Tagen nur zu gut 
weiß. Muß nur einer bezahlen.
Also gilt: Das Bessere ist stets der Feind des Guten und eine schlechte 
Suchmöglichkeit ist besser als gar keine.
Und viele "digitalen Bibliotheken" haben keine.
Arno Mentzel-Reuters


Am 30.07.2011 14:49, schrieb Klaus Graf:
On Fri, 29 Jul 2011 16:45:48 +0200
  "Stephan Kellner"<Stephan.Kellner@xxxxxxxxxxxxxxx>  wrote:
Sehr geehrte Listenteilnehmer,

Das vom Münchener Digitalisierungszentrum (MDZ)
entwickelte Angebot
verwendet die Open-Source-Software Solr. Features wie
Autovervollständigen, Näherungssuche, die automatische
Erkennung von
Orts- und Personennamen sowie automatisch erschlossene
Inhaltsverzeichnisse erleichtern die Suche. Die Abfrage
kann auf
einzelne Signaturenfächer eingegrenzt werden. Erstmals
zeigt die
Vorschau die Treffer in einem Ausschnitt aus dem
Originaldigitalisat
(„KeyWords In Native Context“).
Der uebliche Schrott des MDZ. Bei einer Buchsuchmaschine
ist entscheidend, ob sie sich bei der Eingabe von zwei oder
mehr Suchbegriffen dafuer entscheidet, was ich das
Seitenprinzip nenne, oder fuer das Dokumentprinzip.

Google Books hat sich aus guten Gruenden fuer das
Seitenprinzip entschieden, nimmt aber noch einige Worte von
der naechsten Seite hinzu.

Sucht man nach Ludwig Baumann, findet man einen Treffer in
der Google Buchsuche genau dann, wenn Ludwig und Baumann
gemeinsam auf einer Seite vorkommen (oder auf zwei
folgenden).

Bezogen auf die Seiten entspricht das Dokumentprinzip einem
ODER: Auf der gefundenen Seite kommt Ludwig ODER Baumann
vor.

http://bavarica.digitale-sammlungen.de/de/fs1/object/context/bsb10344318_00006.html?context=baumann&action=Finden%21&contextSort=facs%2Cascending&contextRows=10&contextType=scan&prox=true&ngram=true&hl=scan&mode=simple&fulltext=ludwig+baumann

Ludwig erscheint im Buch siebenmal, Baumann einmal (und auf
der gleichen Seite erscheint auch Ludwig). Google wuerde
nur den Scan 9 mit beiden Begriffen als Treffer ausweisen,
das MDZ hat aber sieben Treffer.

Wenn man nicht die Möglichkeit einer Phrasensuche (z.B.
"Ludwig Baumann") hat, wird sehr schnell klar, dass die
Suche mit zwei Begriffen weitgehend wertlos ist, wenn der
eine Begriff irgendwo im Buch erscheint und der andere
irgendwo anders:

http://bavarica.digitale-sammlungen.de/de/fs1/object/context/bsb10381201_00001.html?prox=true&ngram=true&hl=scan&fulltext=rinderbach+gem%C3%BCnd&mode=simple&context=rinderbach%20gem%C3%BCnd

So weit verbreitet das Dokumentprinzip auch ist
(HathiTrust, JSTOR usw.), dem Suchenden hilft letztlich nur
das Seitenprinzip.

Klaus Graf



-- 
Prof. Dr. Arno Mentzel-Reuters

Archiv und Bibliothek der
Monumenta Germaniae Historica
Ludwigstr. 16
D-80539 München
Tel.: 089-286 38 2382

1. Vorsitzender der Historischen Kommission für
Ost- und Westpreußische Landesforschung

-- 
http://www.inetbib.de

Listeninformationen unter http://www.inetbib.de.