[Python-de] diakritische Zeichen

André Malo ndparker at gmail.com
Fr Nov 9 17:34:22 CET 2012


* Diez B. Roggisch wrote:

> Es geht um diakritische Zeichen *in unicode*, die mal aus einem einzigen
> Codepoint bestehen, mal aus zwei. Je nach Normalform.
[...]
> Das Snippet zeigt Hermann auch die Lösung seines Problems (zumindest
> dieses, Martin von Loewis kennt bestimmt noch ein paar andere dunkle Ecken
> von Unicode): Wenn man beliebige unicode-Strings so formatiert darstellen
> will, sollte man sich im normalisieren üben. Und offensichtlich kann auch
> nicht jede Textengine (zB die von iTerm unter OSX) nicht mit den
> Kombinationszeichen umgehen.

*Die* kenne ich auch ;-)

Reicht nicht, weil: Nicht für jede Kombination gibt es einen eigenen
Codepoint (die aktuelle HTML5-Entity-Tabelle bringt netterweise ein paar
Beispiele mit). Da hilft dann Codepoint-Normalisierung gar nichts. Es
sollte aber möglich sein, die einzelnen Codepoints anhand der
Unicode-Tabellen / Kategorien zu inspizieren und entsprechend selbst (auf
die Länge) zu normalisieren. Eine erste Näherung wäre z.B. alle
combining-Characters von der Länge abzuziehen.

nd
-- 
"Solides und umfangreiches Buch"
                                          -- aus einer Rezension

<http://pub.perlig.de/books.html#apache2>


Mehr Informationen über die Mailingliste python-de