Leer desde python PDF's y MS-Word

Marcos Núñez marcnunyez en yahoo.com
Lun Jul 7 11:02:42 CEST 2003


Gracias, me peleare un poco con el "nuxeo", pero en principio me gustaria que 
no fuera dependiente de la plataforma y que funcionara directamente desde 
python (sin Zope).

Asi que tambien acepto otras proposiciones...




El Lunes, 7 de Julio de 2003 09:10, Garikoitz Araolaza escribió:
> At 09:03 07/07/03, you wrote:
> >Buenos dias, necesito poder sacar el texto de este tipo de documentos para
> >poder indexarlos en una bb.dd.
>
> Para PDF tienes pdftotext, que es una utilidad que viene con el paquete
> xpdf de linux. Básicamente convierte de PDF a txt, con lo que después es
> muy fácil indexarlo en BBDD.
>
> Para MS-Word también hay filtros en wvWare (http://www.wvware.com)
>
> Hay un producto Zope de Nuxeo (empresa francesa) que indexa todo este tipo
> de documentos (incluso PowerPoint), aunque hay que instalar uno a uno cada
> filtro para cada tipo de documento. Le puedes echar un vistazo en
> http://www.zope.org/Members/sf/NuxDocument/
>
> Saludos
>
>
> _________________________________________
> Garikoitz Araolaza
> gari en eibar.org
>
> _______________________________________________
> Python-es mailing list
> Python-es en aditel.org
> http://listas.aditel.org/listinfo/python-es

-- 
Marcos Núñez Clemente




Más información sobre la lista de distribución Python-es