[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: R-Reform: Verschlimmbesserung



Herr Eversberg hat mich auf eine interessante Beobachtung gebracht:
Bei Google bringt
Behaviour 8,76 Mio. Treffer
Behavior 20,6 Mio. Treffer
Behaviour OR Behavior 10,3 Mio. Treffer
Behavior OR Behaviour 10,4 Mio. Treffer
Das ist nicht nur ein merkwürdiges OR, es zeigt auch wieder, dass Google teilweise einen Unterschied darin macht was man als erstes sucht.
Organisation 25 Mio. Treffer
Organization 48,9 Mio. Treffer
Organisation OR Organization 12 Mio. Treffer
Organization OR Organisation 11,9 Mio. Treffer
organization AND organisation 2,84 Mio. Treffer
organization organisation 2,81 Mio. Treffer
organisation AND organization 2,84 Mio. Treffer
organisation organization 2,85 Mio. Treffer


Ansonsten muss ein Katalog den Verweis von Organisation zu Organization bzw. umgekehrt nicht vornehmen,
wenn das vom Retrieval übernommen wird, und dieses schiene mir sinnvoller.


Auch das Beispiel "wohl definiert" mit 565 Treffer zu
wohldefiniert mit 6280 Treffer
scheint mir bemerkenswert, im Vergleich zu
"nicht definiert" 44300
nichtdefiniert 48
"kaum definiert" 203
"neu definiert" 46900
etc.
Zu definiert erscheinen 1,32 Mio. Treffer
Das zeigt sehr schön, wie wichtig im Retrieval eine getrennte Schreibweise wäre,
auch wenn ein Verlust von 6280 Treffern bei der Suche nach Definitionen über 1,32 Mio. "definiert" ,
nur einen Fehler von 5 Promille ausmacht.


Noch schöner zeigt uns, wo das eigentliche Problem liegt, wenn wir suchen:
rostend 2490 Treffer
rostend  OR nichtrostend OR rostende OR gerostet 9000 Treffer
rostend  -nichtrostend 2,430 Treffer
rostend  -"nicht rostend" 463 Treffer

Ob das bei Google morgen auch noch so ist bleibt offen.

MfG

Umstätter

Bernhard Eversberg wrote:

On 10 May 04, at 20:28, W. Umstaetter wrote:



Zumindest haben wir eine amerikanische Schreibweise für behavior, organization, etc.


Daran sieht man, dass auch eine nicht gelungene Reform immer noch Spuren hinterlassen kann, die einem fuer alle Zeit beim Retrieval zu schaffen machen koennen.
Und welcher Katalog oder Suchmaschine gleicht denn diese, schon lange bestehenden Differenzen aus? Bis jetzt doch wohl keine.


Bitte keine Missverstaendnisse: ich rede nicht einem starren Konservativismus in der Orthographie das Wort, aber ich moechte es doch ins Bewusstsein bringen, was man anrichtet mit einer Aenderung von Schreibweisen. Das Krimskrams-Wissen, das beim Retrieval gebraucht wird, nimmt immer mehr zu. Kann uns, professionell gesehen, eigentlich recht sein, mal anders betrachtet ...



Eigentlich sind das alles Marginalien im Vergleich zu den Homonymen und Vieldeutigkeiten unserer Sprache, die durch die Syntax entstehen.
Darum haben wir in unserer Sprache beim Retrieval seit Jahrzehnten recall ratios und precisions von nur 50 Prozent.


Eben. Ob man dieses desastroese Verhaeltnis ohne Not noch weiter verschlechtert, das ist die Frage. Die Probleme koennen sich doch gegenseitig aufschaukeln, wenn man zwei oder mehr Suchterme zu kombinieren hat.



dann fallen Schreibweisen mit ss statt ß, sss oder Getrenntschreibungen ganz erheblich weniger ins Gewicht.


Dagegen hatte ich ueberhaupt nie etwas gesagt, denn


... das ß wird ohnehin oft automatisch als ss recherchiert ...


dieses Problem ist deswegen keins.



sondern darum, dass wir erkennen sollten, dass Getrenntschreibung die Recherche dort erleichtert, wo es keine left hand truncation gibt.



Dafuer gibt es aber recht wenige sinnvolle Beispiele! Die meisten neuen
Getrenntschreibungen sind in dem Sinne nicht hilfreich. Denken Sie an
"nicht linear" oder "nicht rostend". Solche hatte ich in meinem Papier angefuehrt und angeprangert.




Vermutlich wird man auch in absehbarer Zukunft, unabhängig von einer Rechtschreibreform, das Wort "Wurschtigkeit" mit suchen müssen, wenn man "Wurstigkeit" meint.


Sehen Sie, Sie haben es begriffen!


Man muss nicht selten ganz gezielt nach falschen schreibweisen recherchieren,


Nicht immer, aber immer oefter, das ist der Punkt.



Das ist der Grund, warum auch ontologies keine höhere precision bringen können, solange wir keine klare Begrifflichkeit über einen wohl definierten semiotischen Thesaurus herstellen.


"wohldefiniert" ist wieder ein gutes Beispiel. Wenn "wohl definiert" geschrieben wird, ist das nicht nur beim Lesen aergerlich holprig, man findet's auch weniger leicht, und nicht mit einem Schlage zusammen mit "wohldefiniert".
Was den semiotischen Thesaurus gleich wohl zu einem um so groesseren Desiderat macht.
(Noch zwei Beispiele fuer Neufehler.)


B.E.


Bernhard Eversberg
Universitaetsbibliothek, Postf. 3329, D-38023 Braunschweig, Germany
Tel. +49 531 391-5026 , -5011 , FAX -5836
e-mail B.Eversberg@xxxxxxxx







Listeninformationen unter http://www.inetbib.de.