[PyAthens] Filename corruption

George Sakkis george.sakkis at gmail.com
Fri Dec 4 20:43:00 CET 2009


2009/12/4 Christos Georgiou <tzot at sil-tec.gr>:

> Η ζημιά που έχεις πάθει είναι αρκετά μεγάλη, επειδή για κάποιο λόγο κάποια
> αρχεία έχουν τρίδιπλες κωδικοποιήσεις μέσα στο ίδιο filename…
> Για παράδειγμα, το
> '\xe2\x95\xac\xd0\xb0\xe2\x95\xac\xe2\x94\x90\xe2\x95\xac\xe2\x95\x97\xe2\x95\xac\xe2\x95\xa3\xe2\x95\xa7\xd0\x94\xe2\x95\xac\xe2\x95\xa1\xe2\x95\xac\xd0\xbf\xe2\x95\xac\xe2\x96\x92'
> είναι
>
>>>> print s.decode('utf_8').encode('cp855', 'replace').decode('utf_8',
>>>> replace')
> Πολι?���α

Α μάλιστα, έτσι εξηγείται το μπέρδεμα.

> Μπορώ να παίξω, αν θέλεις, και αν δεν είναι εμπιστευτικά τα filenames (π.χ.
> αν συμπεριλαμβάνονται και αρχεία με όνομα "Γλείψιμο μεγάλου δαχτύλου του
> δεξιού ποδιού από άρτι ενηλικιωθείσα μοναχή.wmv"). Κάνε μου τη χάρη να πας
> στα «ριζά» του δίσκου που έχει γίνει mount ως UTF_8, και δώσε ένα find .
> -print | gzip -9 >/tmp/filenames.gz , το οποίο /tmp/filenames.gz ανέβασέ το
> κάπου και στείλε εδώ το link.

Έλα μωρέ, και να τύχει κανα εμπιστευτικό filename μια οικογένεια
είμαστε ;-) Λοιπόν ανέβασα στο
http://www.datafilehost.com/download-754f9873.html το αρχείο με τα non
ascii filenames (μόνο basenames χωρίς extension) και το σκριπτάκι που
τα παρήγαγε. Κάποια είναι γερμανικά (ίσως και 1-2 γαλλικά) αλλά τα
περισσότερα είναι (ή ήταν κάποτε) ελληνικά. Btw δε μιλάμε για καμια
mission critical απώλεια, μικρό το κακό, οπότε παίξε μόνο αν δεν έχεις
τίποτα καλύτερο να κάνεις (ή ψήνεσαι για την τζάμπα μάσα ;-)).


More information about the PyAthens mailing list