[Python-de] diakritische Zeichen
André Malo
ndparker at gmail.com
Fr Nov 9 17:34:22 CET 2012
* Diez B. Roggisch wrote:
> Es geht um diakritische Zeichen *in unicode*, die mal aus einem einzigen
> Codepoint bestehen, mal aus zwei. Je nach Normalform.
[...]
> Das Snippet zeigt Hermann auch die Lösung seines Problems (zumindest
> dieses, Martin von Loewis kennt bestimmt noch ein paar andere dunkle Ecken
> von Unicode): Wenn man beliebige unicode-Strings so formatiert darstellen
> will, sollte man sich im normalisieren üben. Und offensichtlich kann auch
> nicht jede Textengine (zB die von iTerm unter OSX) nicht mit den
> Kombinationszeichen umgehen.
*Die* kenne ich auch ;-)
Reicht nicht, weil: Nicht für jede Kombination gibt es einen eigenen
Codepoint (die aktuelle HTML5-Entity-Tabelle bringt netterweise ein paar
Beispiele mit). Da hilft dann Codepoint-Normalisierung gar nichts. Es
sollte aber möglich sein, die einzelnen Codepoints anhand der
Unicode-Tabellen / Kategorien zu inspizieren und entsprechend selbst (auf
die Länge) zu normalisieren. Eine erste Näherung wäre z.B. alle
combining-Characters von der Länge abzuziehen.
nd
--
"Solides und umfangreiches Buch"
-- aus einer Rezension
<http://pub.perlig.de/books.html#apache2>
Mehr Informationen über die Mailingliste python-de