Extracción de metadatos de documentos

Inigo Serna inigoserna en gmail.com
Vie Sep 12 14:37:37 CEST 2008


Buenas,

On Fri, Sep 12, 2008 at 02:01:21PM +0200, Chema Cortes wrote:
> Necesitaría saber de librerías para obtener y modificar metadatos de
> distintos documentos (PDF, word, odt, djvu, jpeg, mp3, ogg, etc). Es
> para un sistema de gestión documental que estoy ideando. Básicamente,
> necesito lo que algunos sistemas de escritorio ofrecen cuando pides
> información de un documento, pero que se pueda hacer desde una
> librería en python.
> 
> ¿Conocéis de alguna librería que use varios formatos de ficheros? No
> necesito que sea multiplataforma.

Algunas librerías en python:

pdf: pypdf
*-office: OOoPy o algún otro paquete similar (existen varios)
jpeg: pyexif
audio: exfalso (de los mismos autores que quodlibet)
video: no estoy seguro, pero tal vez pymedia
djvu: tal vez puedas convertr a pdf primero y luego extraer los datos

[si necesitas tengo ejemplos para algunas de estas librerías:
pyexif, pypdf, exfalso...]

y luego tienes "hachoir" [1] que no sé muy bien cómo describir, 
pero puede ser perfecto cuando no dispongas de una librería 
específica para un formato concreto.

Otra opción puede ser tirar de ctypes y utilizar las librerías
que ofrecen diversos metabuscadores. En entornos linux se está
intentando estandarizar un estándar basado en dbus (creo) que
puede que te sirva también.

Perdona finalmente que no ponga las urls del resto de módulos
(no tengo demasiado tiempo ahora para localizarlas), entiendo
que con google será rápido, si no díme y las busco.

Saludos,
Iñigo Serna

[1] http://hachoir.org/
------------ próxima parte ------------
A non-text attachment was scrubbed...
Name: no disponible
Type: application/pgp-signature
Size: 189 bytes
Desc: no disponible
URL: <http://mail.python.org/pipermail/python-es/attachments/20080912/6a8ae33c/attachment.pgp>
------------ próxima parte ------------
_______________________________________________
Lista de correo Python-es 
http://listas.aditel.org/listinfo/python-es
FAQ: http://listas.aditel.org/faqpyes


Más información sobre la lista de distribución Python-es