[Python-de] diakritische Zeichen
Armin Stroß-Radschinski
developer at acsr.de
Mi Nov 7 19:06:40 CET 2012
Deine Frage ist meiner Meinung nach unbewusst unpräzise, wenn nicht
sogar falsch, formuliert.
Geht es Dir nur um dieses eine Zeichen oder eine generelle Info zu
Unicode mit diakritischen Zeichen?
Am 07.11.2012 um 16:32 schrieb Hermann Riemann:
> Hat der string 'ä', wenn ä als als diakritisches Zeichen entstanden
> ist,
Es gibt
1. Den Code für die fertige Glyphe (Umrissform) die bereits das
diakritische Zeichen (den "Dreck" ;-) enthält
oder
2. die Kombination aus lateinischem Basiszeichen und Diakritischem
Zusatz der auf das Basiszeichen folgt oder vorangestellt ist und ein
separater Character bleibt und lediglich gemeinsam eingegeben werden
kann (z.b. franz. Tastatur) und am Bildschirm und im Druck
übereinander "imposed" dargestellt wird.
Beides sieht am Ende gleich aus ist, aber datentechnisch verschieden.
Daraus kannst Du aber nicht die Bytezahl ableiten, da Unicode
verschiedene Umsetzungen anbietet.
Als UTF-8, UTF-16 unterscheiden sich in der Bytezahl möglicherweise.
UTF-8 bietet Vorteile bei lateinischen Zeichen, da häufig nur ein Byte
ausreicht. UTF-16 codiert jedes Zeichen mit mindestens zwei Byte.
Asiatische Zeichen werden oft sogar noch länger.
Wie die Umrissform gerendert wird oder ob sie zurückübersetzt wird
hängt vom Subsystem ab. Da lauern böse Fallen, wenn man das
Zielzeichensystem nicht kennt (Muttersprachler?). Insbesondere aus PDF
zurück kopierter Text endet leicht als Müll. Es sind of keine
symmetrischen Transformationen möglich.
my 2 Cent
Armin
> in Python 3 die Länge 1 oder 2?
>
> http://de.wikipedia.org/wiki/Unicodeblock_Kombinierende_diakritische_Zeichen
>
> Hermann
> der beim Programm manchmal gerne die Spaltennummer hätte.
>
> --
> http://www.Hermann-Riemann.de
> _______________________________________________
> python-de maillist - python-de at python.org
> http://mail.python.org/mailman/listinfo/python-de
--
Armin Carl Stroß-Radschinski, Dipl. Designer
acsr industrialdesign, Landgrafenstraße 32, 53842 Troisdorf, Germany
Telefon +49 (0) 22 41 / 94 69 94, FAX +49 (0) 22 41 / 94 69 96
eMail a.stross-radschinski at acsr.de - http://www.acsr.de
UST. ID Nr: DE154092803 (EU VAT ID)
Mehr Informationen über die Mailingliste python-de