[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Literaturrecherche




kaemper _at__ ub.uni-stuttgart.de wrote:

> Schließlich kann man in Google wie in Altavista eine Phrase wie
> "Digitalisierung von Zettelkatalogen" als ebensolche ("...") eingeben,
> ohne vor jedes Wort ein + setzen zu müssen.

Das ist zwar richtig, aber nach meiner Erfahrung nicht zuverlässig.

>
> Was die PDF-Dokumente betrifft, so wird offenbar in Fällen, wo die
> PDF-Datei aus gescannten Images besteht, für die Generierung der
> Textfassung OCR-Erkennung betrieben - das sieht man dann auch ... ;-)
> für das Retrieval evtl. trotzdem noch brauchbar wegen hoher Redundanz in
> Volltexten.

Ich glaube nicht, dass das so kompliziert abläuft. In gewisser Hinsicht ist
PDF eine besondere Form von Layout-Images. In diesen "Images" wird der Text
so behandelt, dass er z.B. im Acrobat Reader auch suchbar ist. Diese Texte
werden also sicher nicht erst per OCR lesbar gemacht. Sie werden aber als
Volltexte ohne die Bilder bei Google archiviert (Cache).

MfG

Umstätter


> Gruß,
> Bernd-Christoph Kämper, UB Stuttgart



Listeninformationen unter http://www.inetbib.de.