Extraer información de los PDFs

Mayra González Morales mayragm en finlay.cmw.sld.cu
Dom Jul 27 19:57:21 CEST 2008


Hola lista:

Frecuentemente tengo que escribir reportes, artículos y otros documentos para la Universidad y algunos eventos, para ello usualmente acumulo una buena cantidad de material en formato PDF, obtenido de Internet (Google Schoolar y otros), la cuestión es que estos PDFs no siempre tienen un nombre acorde al contenido, programas como el bibdesk (para MacOS X) permite que cuando se añade una entrada y se asocia a un PDF se realiza una copia a un directorio especificado y además se renombra según un formato que se le especifique, hasta el momento no he encontrado ningún manejador bibliográfico para GNU/Linux que me premita realizar esto. Los PDFs tiene la opción de incluir una determinada información (autor, título, asunto, etc.) que se embebe dentro del propio PDF, por ejemplo en LaTeX esto se puede lograr especificando el siguiente código:

\pdfinfo {
 /Author (Nombre del autor)
 /Title (Título del trabajo)
 /Subject (Tema)
 /Keywords (palabraclave1, palabraclave2, palabraclave3)
 /CreationDate (D:20080115004546)

Mi pregunta es si existe alguna librería de Python que me permita extraer esta información de estar disponible, para luego renombrar los PDFs que tengo en un directorio determinado según un formato epecífico, que podría ser: (Título-Autor-Año), por ejemplo. La parte de renombrar el fichero no es demasiado problema, pero la de extraer la información de los PDFs si. 

Gracias de antemano,
-- 
Este mensaje ha sido analizado por MailScanner del Nodo Finlay, Camaguey, Cuba
en busca de virus y se considera que está limpio.

_______________________________________________
Lista de correo Python-es 
http://listas.aditel.org/listinfo/python-es
FAQ: http://listas.aditel.org/faqpyes





Más información sobre la lista de distribución Python-es