[Python-de] verzwicktes Umlaut /unicode Problem
Felix Schwarz
felix.schwarz at web.de
Mi Jun 4 20:17:25 CEST 2008
Alexander Crössmann schrieb:
> ich hab da ein verzwicktes Problem mit Umlauten, bei dem mir auch die
> Lektüre der python unicode Radgeber nicht weitergeholfen hat:
>
> Ich hab eine csv Datei die ich mit hilfe des csv Moduls in ein
> Dictionary umwandle. In dieser befinden sich in manchen Zeilen Umlaute
> (im Editor im Klartext zu sehen).
>
> Dann habe ich eine xml Datei (<?xml version="1.0" encoding="UTF-8"?>)
> die ich mit Hilfe eines Regulären Ausdrucks nach Feldern (z.B.
> <<hallo>>) durchsuche. Ich splitte den Text, ersetze die Felder durch
> Einträge aus dem Dictionary und füge sie wieder zusammen.
Es gab ja schon einige Hinweise. Ich möchte noch diesen hinzufügen:
Arbeite intern auf jeden Fall mit unicode. D.h. du liest die XML-Datei und
dekodierst sie mit UTF-8. Das gleiche machst du mit den CSV-Daten, bevor du
sie in das CSV-Modul schiebst.
So kannst du deine Probleme auf das Raten/Erkennen des korrekten Encodings
reduzieren und getrennt angehen. Eventuell hilft dir chardet für das Encoding
der CSV-Datei.
fs
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname : smime.p7s
Dateityp : application/x-pkcs7-signature
Dateigröße : 3299 bytes
Beschreibung: S/MIME Cryptographic Signature
URL : <http://mail.python.org/pipermail/python-de/attachments/20080604/4e6956f1/attachment.bin>
Mehr Informationen über die Mailingliste python-de