Leer PDFs

David Asorey Álvarez forodejazz en gmail.com
Vie Feb 9 12:42:15 CET 2007


> Os pongo un ejemplo. Supongamos que tengo una factura en formato PDF y
> quiero obtener el importe de la factura y la la fecha de esta. El objetivo
> es poder hacer una base de datos y posteriormente poder hacer consultas para
> acceder a visualizar estos PDFs.

Como la factura esté escaneada lo llevas claro ... ;-)
En serio, si el pdf está generado a partir de una imagen me temo que
será imposible leer ningún dato textual.
En ese caso creo que deberías intentar atacar el problema con alguna
herramienta o librería de OCR (Optical Character Recognizing).

Si el contenido del PDF es texto (en un visor de PDFs puedes
seleccionarlo) entonces puede ayudar alguna conversión previa a texto
plano. Alguna herramienta del tipo pdf2txt.

Suerte.

-- 
David Asorey Álvarez
forodejazz en gmail.com




Más información sobre la lista de distribución Python-es