[Python-es] Scraping

Chema Cortes pych3m4 en gmail.com
Mie Mar 12 11:34:57 CET 2014


El 11 de marzo de 2014, 17:14, Augusto Theaux <augustotheaux en gmail.com>escribió:

> Omar, gracias por la respuesta. Queria hacerlo sin framework de forma mas
> personalizada, para enteder como funciona.
>

Si quieres empezar por el lado duro, empieza por las expresiones regulares.
Hay un libro que trata sobre cómo procesar texto en python: *Text
Processing in Python* <http://gnosis.cx/TPiP/> de

*David Mertz <mertz en gnosis.cx>*
Pero es mejor usar alguna librería como la BeautifulSoup
<http://www.crummy.com/software/BeautifulSoup/>o Amara<http://xml3k.org/Amara>.
Para la primera, hice una prueba para descargar libros de openlibra
<http://openlibra.com/>para calibre:
calibre-scrap<http://hg.ch3m4.org/calibre-scrap>. Reconozco que tiene
una programación rara si comparas con lo que se ve
por ahí. Para empezar, casi mejor que te busques otros ejemplos.

Para Amara <http://xml3k.org/Amara>, hay un taller muy interesante
impartido por Luis Morillas:
LSWC_scraping_the_web<http://es.wikieducator.org/LSWC_scraping_the_web>(
aquí <http://dl.dropbox.com/u/25217970/WS650063.mp3> tienes el audio).


-- 
Hyperreals *R  "Quarks, bits y otras criaturas infinitesimales":
http://ch3m4.org/blog
Buscador Python Hispano: http://ch3m4.org/python-es
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://mail.python.org/pipermail/python-es/attachments/20140312/b0166cfb/attachment.html>


Más información sobre la lista de distribución Python-es