[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [InetBib] Hinweise erbeten: Maschinelle Verarbeitung von Literaturlisten (Referenzen)



Hallo Herr Weichselgartner,

Sie schrieben:

im Rahmen eines Projektes möchten wir Literaturlisten (Referenzen)
maschinell erfassen (Scannen, OCR, Strukturanalyse, Extraktion der
Teileinheiten).

[...]

a) Die Literaturliste wird gescannt (Tipps für Scanner und Bildparameter
willkommen!)

b) OCR-Erkennung (Abbyy?)

Das ist sicher der einfache Teil, für OCR-Umgebungen gibt es genügend Lösungen, wobei sich andere hier sicher besser auskennen als ich.

c) Strukturanalyse und Zerlegung der Liste in einzelne Referenzen (im
Beispiel zwei Stück)

Das dürfte auch noch unschwer machbar sein.

d) Zerlegung einer Referenz in ihre Teileinheiten.
Am Beispiel oben: Autor 1 = Luck, S.J.; Autor 2 = Vogel, E.K.; Jahr =
1997; Titel = The capacity of visual working memory for features and
conjunctions; Zeitschrift = Nature; Band = 390; Seiten = 279-281.

Da die Anzahl von Zitierunformaten praktisch endlos ist, und nicht alle Formate eindeutig sind, gibt es dafür keine einfache Lösung sondern nur mehr oder weniger gute Heuristiken. Selbst einem Menschen ist nicht immer klar, wofür welche Teileinheiten in einer Literaturangabe stehen.

Im Open Citation Project wurde ein Parser entwickelt, der inzwischen von ArXiV eingesetzt wird, siehe dazu http://jakoblog.de/2008/01/24/citation-parsing/ - die Qualität ist jedoch ziemlich durchwachsen. Falls die zu scannenden Literaturangaben in einem einheitlichen Stil verfasst sind, könnte man einen eignen Parser schreiben. Einige Parser gibt es auch im Rahmen von Zotero, aber die sind ziemlich speziell.

Nach meinem Eindruck ist das Parsen von Literaturangaben eine offene Forschungsfrage[1] bzw. mit einer Menge Feintuning in Handarbeit verbunden. Am besten dürfte sich Thomson Scientific da auskennen, die diverse Zitationsindizes herausgeben - aber die werden ihre Kenntnisse kaum weitergeben. Google hat sicher auch einige Erfahrungen mit Google Scholar. Vielleicht ist man bei CiteSeer auskunftsfreudiger.

Das beste Grundlagenpapier, das ich als Ausgangspunkt für weietre Recherchen finden konnte ist "Digital libraries and autonomous citation indexing" von Lawrence et al. (1998), etwas neuer sind "Identity Uncertainty and Citation Matching" von Pasula et al. (2003) und "Bibliographic attribute extraction from erroneous references based on a statistical model" von Takasu (2003). Anscheinend lassen sich mit probablistischen Verfahren ganz gute Verfahren erziehlen.

Übrigens nimmt die Bedeutung von ausgefeilten Literaturangaben ab und die Bedeutung von Identifiern zu. Wenn ich beispielsweise die DOI eines Artikels habe, sind die übrigen Angaben überflüssig, da man sich die Metadaten auch anderweitig besorgen kann.

Tut mir leid, dass ich konkret auch keinen einfache Lösung nennen kann, ich wäre allerdings sehr daran interessiert, wenn sie mehr herausfinden!

Schöne Grüße,
Jakob

[1] beispielsweise könnte man untersuchen, wie gut sich Parser aus bekannten Zitationsstilen (BibTeX, EndNote...) automatisch erzeugen lassen - hat den Ansatz schon jemand verfolgt?

--
Jakob Voß <jakob.voss@xxxxxx>, skype: nichtich
Verbundzentrale des GBV (VZG) / Common Library Network
Platz der Goettinger Sieben 1, 37073 Göttingen, Germany
+49 (0)551 39-10242, http://www.gbv.de



Listeninformationen unter http://www.inetbib.de.