Baliser un texte en Python

EpSyLOn sasDOTepsylon at wanadoo.fr
Wed Jan 15 08:50:04 EST 2003


On 15 Jan 2003 04:56:49 -0800, nbodineau at club-internet.fr (Natacha)
wrote:

>EpSyLOn <sasDOTepsylon at wanadoo.fr> wrote in message news:<v6t82v0k2igqhceu33rs3ohnkt00q4o29k at 4ax.com>...
>> On 14 Jan 2003 07:35:17 -0800, nbodineau at club-internet.fr (Natacha)
>> wrote:
>> 
>> >bonjour,
>> >
>> >nous aimerions savoir si Python peut baliser un texte(format .txt) en
>> >format XML ou HTML.
>> 
>> Peut-tu donner plus de précisions sur ce que tu veut faire exactement
>> ?
>
>Bonjour,
>Nous voulons aligner un texte avec sa traduction et nous avons besoin
>d'un
>algorithme de balisage et d'un algorithme d'alignement.
>
>Lors du balisage des deux textes, nous aimerions avoir les résultats
>suivants(voir PJ1).
>
>Lorsque les deux textes sont balisés, nous aimerions les aligner
>Sachant que nous désirons aligner ces textes par paragraphe, phrase,
>mot.(voir PJ)
>
[snip exemples]
Bon, je vais tacher d'apporter un début de réponse.
Ce que tu sembles vouloir faire, c'est générer un document XML à
partir d'un document texte brut.
Je suppose que tu as déterminé des sortes d'équivalences entre ton
document texte et ton document XML.
exemple :
<CrLf>
texte bla bla bla...
<CrLf>
devient en XML
<balises precedentes>
    <p id="p1">

    </p>
</ >

Pour faire l'analyse de ce genre de fichier avec Python, deux cas sont
a envisager :
- Lecture simple puis analyse a la main (s'il ne s'agit que de
chercher les espaces, rien de plus simple)
- Analyse avec les expressions régulières (module de la bibliotheque
standard re; http://www.python.org/doc/current/lib/module-re.html)

Pour la génération du code XML :
Je n'ai que peu utilisé XML avec Python, mais voila ce que j'en sais :
- La bibliotheque standard offre des jeux de modules en standard
permettant de gérer le xml et l'html :
http://www.python.org/doc/current/lib/markup.html
- Il y a un projet hébergé chez SourceForge qui a pour but d'améliorer
le support XML de Python :
http://pyxml.sourceforge.net/
- Il existe un SIG (Special Interest Group) consacré au couple
Python/XML :
http://www.python.org/sigs/xml-sig/
- J'ai entendu parlé de 4Suite, mais je ne sais pas exactement a quoi
est destinée cette plateforme :
http://www.4suite.org
- il existe certainement d'autres projets de parser/générateurs, mais
je ne les connais pas...

Le mieux serait de continuer la discussion avec quelqu'un qui en sait
plus que moi, soit en anglais (les contributions seront meilleures),
soit en français sur <news:fr.comp.lang.python>.

Salutations,

-- 
  .-.  EpSyLOn      sas<dot>epsylon<at>wanadoo<dot>fr
  oo|  faq fclc:    http://www.isty-info.uvsq.fr/~rumeau/fclc
 /`'\  Usenet  :    http://www.usenet-fr.net
(\_;/) "Quand le sage montre la lune, l'imbécile regarde le doigt"




More information about the Python-list mailing list