[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Bielefeld Academic Search Engine



Urte Kramer und Norbert Lossau schrieb:
> BASE (Bielefeld Academic Search Engine) Demonstrator jetzt öffentlich
> [...]
> Beim Aufbau der wissenschaftlichen Suchindexe sollen insbesondere
> auch die Inhalte berücksichtigt werden, die von Web-Crawlern
> nicht automatisiert erfasst werden können, also das sog. deep
> oder invisible Web (z.B. digitalisierte Sammlungen,
> Hochschulschriftenserver, eLearning Sammlungen etc.).

Schon vor fünf Jahren machte Norbert Lossau, damals bei der SUB
Göttingen, eine grosszügige Arbeit mit dem Aufbau des Göttinger
Digitalisierungszentrums und der Digitalisierung u.a. von mehreren
älteren mathematischen Zeitschriften.  Jetzt in Bielefeld stellt er
eine Suchmaschine vor, die an den Inhalten diesen Zeitschriften
zugreiffen kann.  Das wird hier oben "deep web" genannt, denn Google
und andere gewöhnliche Websuchmaschinen können an diesen Inhalten
nicht zugreiffen.

Aber warum kann Google das nicht?

In März 1999 besuchte ich zum ersten und bisher einzigsten Mal die
CeBIT Messe in Hannover und habe dann auch GDZ besucht (genau so wie
ich im Herbst 2003 einige interessante Leute in Prag, München, Ulm,
Halle und Berlin besuchte -- Hallo!).  Ich stellte dann und dort ein
Preprint von meinem Aufsatz "Project Runeberg's Electronic Facsimile
Editions of Nordic Literature" vor,
http://runeberg.org/admin/19990511.html

In diesem Aufsatz erkläre ich, wie digitalisierte Literatur so im Web
bereitgestellt werden kann, dass auch gewöhnliche Websuchmaschinen
daran zugreiffen können:

   "From a human interface perspective, interactively served
   world-wide web documents have an optimal size of 2-200 kilobytes.
   This corresponds to a single facsimile image. As a consequence of
   not using HTML frames, Project Runeberg produces an HTML file as a
   wrapper around each scanned page image. This file contains Project
   Runeberg's standard page header and footer, which provide metadata
   as well as pointers to the previous and next page in the sequence
   defined by Pages.lst. The converted GIF is an inline image in this
   document.  Below the scanned image, the raw OCR text is included
   inside a pair of <pre> </pre> tags. These HTML files are produced
   in the web file tree only, and are never seen in the source file
   tree.

   External fulltext search engines such as AltaVista and Infoseek
   will find and index the raw OCR text. When a user gets a search
   hit on this page, she will first see the inline facsimile image of
   the book page.  Only if she scrolls down, will she see the raw
   text."

Ein "deep web" von digitalisierter Literatur gibt es eigentlich nur
durch den Irrtum diesen einfachen Rat nicht zu folgen.

Wer z.B. "luftähnliches Fluidum" bei Google nachsucht, kann dies in
Funktion selbst sehen,
http://www.google.com/search?q=luft%C3%A4hnliches+Fluidum


-- 
  Lars Aronsson (lars@xxxxxxxxxxx)
  Projekt Runeberg - freie nordische Literatur - http://runeberg.org/


Listeninformationen unter http://www.inetbib.de.