[Python-es] Extraer texto de un pdf

Javier Sangalo jjsangalo en gmail.com
Mie Abr 13 07:59:45 EDT 2016


Por supuesto: (Utilizo Windows 7 y anaconda)









*import PyPDF2pdfFileObj = open('BOE1.pdf', 'rb')pdfReader =
PyPDF2.PdfFileReader(pdfFileObj)pageObj =
pdfReader.getPage(0) pageObj.extractText()*


Adjunto el pdf.

Mil gracias!!

El 13 de abril de 2016, 13:51, Kiko <kikocorreoso en gmail.com> escribió:

>
>
> El 13 de abril de 2016, 13:46, Javier Sangalo <jjsangalo en gmail.com>
> escribió:
>
>> Siento molestaros de nuevo, pero hay algunos pdfs que cuando hago *extractText()
>> *lo que obtengo es un conjunto de lineas en blanco, y no logro saber
>> porqué.
>> Con otros pdf funciona sin problema, pero con este por ejemplo (
>> http://boe.es/boe_n/dias/2016/04/13/not.php?id=BOE-N-2016-199370 ) solo
>> obtengo lineas en blanco
>>
>> Quizás sea por algo relacionado con la codificación del pdf, pero no
>> encuentro ninguna opción para cambiar la codificación.
>>
>
> Puedes poner código con lo que estás intentando y pdf's donde te suceda
> para que se pueda reproducir el comportamiento?
>
>
>>
>> Muchas gracias de antemano.
>>
>> Un saludo.
>>
>> El 13 de abril de 2016, 9:32, Javier Sangalo <jjsangalo en gmail.com>
>> escribió:
>>
>>> Muchisimas gracias a todos!!
>>> Funciona sin problema!!
>>>
>>> El 12 de abril de 2016, 16:21, Robert <robert.chile en gmail.com> escribió:
>>>
>>>> Hola javier, otro ejemplo de uso PyPDF2
>>>> <https://github.com/colemana/PyPDF2>:
>>>>
>>>> http://stackoverflow.com/questions/18755412/parse-a-pdf-using-python
>>>>
>>>> Saludos.
>>>>
>>>> --
>>>> Roberto Beroiza Alvear
>>>>  Linux User # 533916
>>>>           Chile
>>>>
>>>> 2016-04-11 11:17 GMT-03:00 Javier Sangalo <jjsangalo en gmail.com>:
>>>>
>>>>> Buenas tardes,
>>>>>
>>>>> Estoy intentando extraer información de un pdf y trato de instalarme
>>>>> algunas librerías como pdf2text o pdfMiner pero no consiguo completar la
>>>>> instalación.
>>>>> Estoy usando anaconda en windows y según he leido, algunas de estas
>>>>> librerías no son compatibles con windows.
>>>>> Alguien sabríadecirme si existe alguna librería similar que pueda
>>>>> instalar en windows?
>>>>>
>>>>> Muchas gracias de antemano.
>>>>>
>>>>> _______________________________________________
>>>>> Python-es mailing list
>>>>> Python-es en python.org
>>>>> https://mail.python.org/mailman/listinfo/python-es
>>>>> FAQ: http://python-es-faq.wikidot.com/
>>>>>
>>>>>
>>>>
>>>>
>>>>
>>>> _______________________________________________
>>>> Python-es mailing list
>>>> Python-es en python.org
>>>> https://mail.python.org/mailman/listinfo/python-es
>>>> FAQ: http://python-es-faq.wikidot.com/
>>>>
>>>>
>>>
>>
>> _______________________________________________
>> Python-es mailing list
>> Python-es en python.org
>> https://mail.python.org/mailman/listinfo/python-es
>> FAQ: http://python-es-faq.wikidot.com/
>>
>>
>
> _______________________________________________
> Python-es mailing list
> Python-es en python.org
> https://mail.python.org/mailman/listinfo/python-es
> FAQ: http://python-es-faq.wikidot.com/
>
>
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://mail.python.org/pipermail/python-es/attachments/20160413/6e6dfa0a/attachment.html>
------------ próxima parte ------------
A non-text attachment was scrubbed...
Name: BOE1.pdf
Type: application/pdf
Size: 218365 bytes
Desc: no disponible
URL: <http://mail.python.org/pipermail/python-es/attachments/20160413/6e6dfa0a/attachment.pdf>


Más información sobre la lista de distribución Python-es