[Python-de] verzwicktes Umlaut /unicode Problem

Felix Schwarz felix.schwarz at web.de
Mi Jun 4 20:17:25 CEST 2008


Alexander Crössmann schrieb:
> ich hab da ein verzwicktes Problem mit Umlauten, bei dem mir auch die
> Lektüre der python unicode Radgeber nicht weitergeholfen hat:
> 
> Ich hab eine csv Datei die ich mit hilfe des csv Moduls in ein
> Dictionary umwandle. In dieser befinden sich in manchen Zeilen Umlaute
> (im Editor im Klartext zu sehen).
> 
> Dann habe ich eine xml  Datei (<?xml version="1.0" encoding="UTF-8"?>)
> die ich mit Hilfe eines Regulären Ausdrucks nach Feldern (z.B.
> <<hallo>>) durchsuche. Ich splitte den Text, ersetze die Felder durch
> Einträge aus dem Dictionary und füge sie wieder zusammen.

Es gab ja schon einige Hinweise. Ich möchte noch diesen hinzufügen:
Arbeite intern auf jeden Fall mit unicode. D.h. du liest die XML-Datei und 
dekodierst sie mit UTF-8. Das gleiche machst du mit den CSV-Daten, bevor du 
sie in das CSV-Modul schiebst.

So kannst du deine Probleme auf das Raten/Erkennen des korrekten Encodings 
reduzieren und getrennt angehen. Eventuell hilft dir chardet für das Encoding 
der CSV-Datei.

fs


-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : smime.p7s
Dateityp    : application/x-pkcs7-signature
Dateigröße  : 3299 bytes
Beschreibung: S/MIME Cryptographic Signature
URL         : <http://mail.python.org/pipermail/python-de/attachments/20080604/4e6956f1/attachment.bin>


Mehr Informationen über die Mailingliste python-de