[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Unicode



Liebe Frau Wiesenmueller,

die Eingabe, Abspeicherung, Recherche und Darstellung von Sonderzeichen ist
ein Problem
auf mehreren Ebenen.

Hier bei der PTB habe ich ab 1999 eine Publikationsdatenbank aufgebaut, die
nur mit Browser
bedient wird: dezentrale Datenerfassung durch Wissenschaftler und
beauftragte Sekretärinnen,
Editieren durch Bibliotheksmitarbeiterinnen, Recherche, Ansicht und Export
von Datensätzen
durch jeden, der will.
Wegen den in physikalisch-technischen Texten (Titel und Abstracts)
reichlich vorhandenen
mathematischen Sonderzeichen, Formelzeichen, den fremdländischen Koautoren
und den
Namen von deren Institutionen (die alle erfasst werden), stellte sich uns
eben genau das von
Ihnen angesprochene Problem.

Zur Eingabe:
In den Datensatz direkt den Unicode für ein Sonderzeichen einzugeben,
wäre eine Überforderung für die allermeisten Beteiligten. Jeder der später
recherchieren will,
müsste den Unicode für die betreffenden Sonderzeichzen kennen.
Unsere Lösung: Sonderzeichen werden als (sprechende) Entity eingegeben.
Beispiel:
der griechiche Kleinbuchstabe alpha wird als .alpha. eingegeben,
der entsprechende Großbuchstabe als .Alpha..
Wenn gewünscht kann ich Ihnen unsere Entity-Liste zusenden.
Mittlerweile höre ich keine Klagen oder Wünsche mehr nach weiteren
neuen Sonderzeichen.

Zum Abspeichern:
Genau diese Entites für die Sonderzeichen werden im Text abgespeichert.
Und bei der Anzeige des Datensatzes in der Eingabemaske (!, z.B. zum
Editieren)
werden genau diese Entities angezeigt.

Zur Recherche:
Wer die Beschreibung der Sonderzeichen mit den entities kennt, kann durch
Eingabe
der passenden entity (ohne den einleitenden und abschliessenden Punkt)
an der Stelle des Sonderzeichens die zugehörigen Datensätze finden.
Damit werden auch Formelbestandteile suchbar, Namen, Orte mit Sonderzeichen
natürlich auch.

Zur Anzeige:
Wird nach einer Recherche die Ergebnisliste oder werden Datensätze
angezeigt, so werden
die Sonderzeichen dort richtig angezeigt, also nicht die entsprechende
entity.
Die angezeigten Seiten sind temporär aus der Datenbank generierte
HTML-Seiten.
Bei der Umsetzung des ASCII-Textes werden die entities on-the-fly anhand
einer
entity-Tabelle in Unicode gewandelt. Daher steht im HTML-Quelltext nicht
die entity,
sondern der Code des Sonderzeichens.  Dieser führt dann bei
fortschrittlicheren Browsern
zur Anzeige des Sonderzeichens. Leider beherrschen nicht alle Browser die
Anzeige
aller Unicode-Codes. Bis 2001 hatten wir die Wandlung in HTML-Code
vorgenommen,
mit dem Nachteil, dass nicht alle erforderlichen Sonderzeichen darstellbar
waren.
Mit dem Aufkommen Unicode-fähiger Browser konnten wir dann auf Unicode
übergehen.
Wegen der Entity-Lösung war dazu keine Änderung in den Datensätzen
erforderlich.

Zum Ausdrucken von Datensätzen:
Es gibt einen eigenen Menüpunkt in der Datenbankoberfläche, der dafür
sorgt, dass
ein korrekter Ausdruck von Datensätzen möglich ist. Wenn allerdings der
Druckertreiber
ein Sonderzeichen nicht kennt, erscheint auf dem Ausdruck nur ein
Platzhalter-Zeichen.
Die Beschränkung liegt also wieder auf Browser-Seite und nicht in der
Datenbank.

Zum Export von Datensätzen:
Bei den Exportformaten RTF und HTML werden die entities ebenfalls on-
the-fly in die
im jeweiligen Format notwendige Codierung überführt. Aufrufen der
abgespeicherten Datei
mit WORD bzw. Browser bringt also die richtige Anzeige der Sonderzeichen.



In den letzen Jahren waren immer über 130 Personen in der Datenbank
schreibberechtigt.
Derzeit sind es 137 an bundesweit drei Standorten. Nach
Anlaufschwierigkeiten, die auch in der richtigen Einstellung des
Browsers und eine Umgewöhnung des Arbeits von lokal installierter
Client-Software zur
reinen Browser-Bedienung lagen, klappt die Datenerfassung jetzt
zufriedenstellend.
Nacharbeit für die Bibliotheksmitarbeiterinnen ergibt sich vor allem bei
Konferenzartikeln.
Von Wissenschaftlern und Sekretärinnen können ja auch keine
dokumentarischen Qualtifikationen
erwartet werden.

Als Tip habe ich den schreibberechtigten Personen empfohlen, die entities
zu den
in ihrem Bereich häufig vorkommenden Sonderzeichen in einer ASCII-Datei zu
speichern und
bei der Datenerfassung die erforderliche entity mit cut-and-paste zu
übernehmen.
Auch das wurde angenommen.

Mein Ziel ist eine mehr zentrale Datenerfassung durch Fachkräfte. Dahin zu
kommen, ist
aber  ein hausinternes, organisatorisches Problem. Würde ein Weg gefunden,
wie die Autoren
verlässlich und termingerecht ihre bereits vorliegenden Daten der
Veröffentlichungen bei uns
abliefern (damit hier nicht noch mal das Abstract eingetippt werden muss),
dann würde
das sicher eine Steigerung der Effizienz bedeuten. Derzeit meistern wir
also
den worst-case. Unser Problem liegt auch nicht mehr bei den Sonderzeichen.
Sollte zukünftig ein anderer Code als Unicode im WWW gebräuchlich
werden, so müssen wir dazu nur unsere Konvertierungstabelle ändern.


Hoffentlich können Sie mir diesen Erfahrungen etwas anfangen.
Dass alle gebräuchlichen Browser unicode unterstützen, darauf würde ich
mich
nicht verlassen. Der Tag, an dem von den Browser-Herstellern alle Vorgaben
des
W3C eingehalten werden und damit alle Browser tatsächlich einen identischen
(Grund)-Leistungsumfang gewährleisten, auf den Diensteanbieter aufbauen
können,
der Tag ist noch in weiter Ferne.

Beste Grüsse

J. Meier
____________________________________________________
Dr.-Ing. Joachim E. Meier
Referatsleiter Q.11, Wissenschaftliche Bibliotheken
Physikalisch-Technische Bundesanstalt (PTB) (http://www.ptb.de)
PF 3345                 Tel. +49-531-592-8131
38023 Braunschweig    Fax. +49-531-592-8137
GERMANY                 E-mail: Joachim.Meier _at__ ptb.de



                                                                                                                                           
                      Heidrun Wiesenmueller                                                                                                
                      <wiesenmueller _at__ wlb-st        An:       inetbib _at__ ub.uni-dortmund.de                                                    
                      uttgart.de>                  Kopie:                                                                                  
                      Gesendet von:                Thema:    Unicode                                                                       
                      owner-inetbib _at__ ub.uni-                                                                                                
                      dortmund.de                                                                                                          
                                                                                                                                           
                                                                                                                                           
                      04.12.2002 08:26                                                                                                     
                      Bitte antworten an                                                                                                   
                      Internet in                                                                                                          
                      Bibliotheken                                                                                                         
                                                                                                                                           
                                                                                                                                           




Liebe Kolleginnen und Kollegen,

bisher war ich der Ansicht, dass es keinen Sinn macht, die in ASCII nicht
darstellbaren Zeichen (wie sie in einer bibliographischen Datenbank mit
Titelmaterial aus diversen Sprachen natuerlich regelmaessig vorkommen) mit
Unicode zu verschluesseln, weil es bei den Benutzern u.U. falsch
dargestellt wuerde. Bisher fuehren wir deshalb in unserer
Landesbibliographie Problematisches auf den Grundbuchstaben zurueck, so
dass z.B. viele diakritische Zeichen einfach unter den Tisch fallen.

Nun habe ich gelesen, dass inzwischen alle gaengigen Browser Unicode
automatisch erkennen. Kann und soll man jetzt also Unicode verwenden? Und
falls ja, was waere bei der Codierung zu beachten (und wie muesste man
umgekehrt die Eingaben der Benutzer bei der Recherche behandeln)?

Schoene Gruesse
Heidrun Wiesenmueller

--------------------------------
Heidrun Wiesenmueller M.A.
Wuerttembergische Landesbibliothek
Landesbibliographie / Karten- und Graphische Sammlung
Postfach 105441  D-70047 Stuttgart
Konrad-Adenauer-Str. 8  D-70173 Stuttgart
Tel.: +49 (0)711/212-4399
Fax.: +49 (0)711/212-4422
http://www.wlb-stuttgart.de/bawue/lanbib.html








Listeninformationen unter http://www.inetbib.de.