[Python-de] OT: Versuch einen crawler für eine eine geografische Region zu schreiben

Mo Jul 22 07:14:50 CEST 2013

Danke Achim,
du lieferst mir zwei neue Tools in meinen Köcher...
On 07/21/2013 11:39 PM, Achim Domma wrote:
> Hallo Robert,
>
> hier mal ein paar Einstiegspunkte:
>
> - Die Suche mit Google/Bing ist ein einfacher HTTP Request. Dafür würde ich erstmal http://docs.python-requests.org/en/latest/ verwenden.
> - Zum Parsen von HTML würde ich https://pypi.python.org/pypi/beautifulsoup4 empfehlen.
ich hab an scrapy gedacht.
beautifulsoup kenne ich zwar, aber aufgrund der doku  scheint scrapy eine 
mischung aus einem crawler und einem html parser a la beautifulsoup zu sein.
> - Wenn dein Crawler komplexer wird und Requests nicht ausreicht, würde ich http://scrapy.org/ verwenden. Damit kannst du je nach Umfang natürlich auch die Suchanfragen ausführen.
> - Die automatische Exraktion der Daten ist natürlich der spannendste Teil. Das würde hier zu weit führen, so lange du keine konkreteren Fragen stellst. Ein Blick auf http://nltk.org/ kann aber sicher nichts schaden.
Was ich extrahieren möchte ist:
- Standort der Firma/Organisation
- Tätigkeitsbereiche
- Personennamen, idealerweise bereichsbezogen

Das mittelfristige Ziel ist es, ein Atlas der Firmen, Forschungsinstitute usw zu 
erstellen, die im Bereich der von Cleantech (d.h. erneuerbaren Energien) tätig sind.
Diese sollten nach Kantonen (das sind die Schweizer Bundesländer) unterteilt 
sein, da bei uns die viele Förderungsmassnahmen und Vorschriften kantonal 
verschieden sind.

danke bestens
und häb än schöne taag
Robert
> - Zu den IP Filtern kann ich nichts sagen.
>
> viele Grüße,
> Achim
>
>
> Am 21.07.2013 um 15:16 schrieb robert rottermann:
>
>> Hoi zäme,
>>
>> ich möchte eine Liste der Webseiten zusammentragen, die sich mit "erneuerbarer Energie" befassen.
>> Dabei will ich mich möglichst auf eine relative eng begrenzte geografische Region beschränken.
>>
>> Die gefundenen Webseiten sollen dann weiter verarbeitet werden, um so Bezüge unter inhnen bzw. den Organisationen, die die Webseiten unterhalten, darstellen zu können.
>>
>> Was ich als Ausgangsmaterial habe, ist eine Liste von Stichworten.
>>
>> Hat jemand Vorschläge, wie so etwas gemacht werden soll?
>>
>> Ich stelle mir folgenden Stack von Aktionen vor:
>>
>> 1. Suchen mit Google/Bing .. nach den Stichworten
>> 2. ausfiltern der Resultate aufgrund der deren IP Adresse
>> 3. Scrappen der gefundenen Sites um die Information zu "verdichten"
>> 4. Verarbeiten der akkumulierten Info um die gewünschten Bezüge zu schaffen.
>>
>> Hat jemand schon so was gemacht?
>> Oder hat mir jemand Tips wie man sowas sinvoll macht?
>>
>> danke für eure Antworten
>> und
>> schaut, dass der Sommer noch ein wenig bleibt..
>>
>> gruss
>> robert
>> _______________________________________________
>> python-de maillist  -  python-de at python.org
>> http://mail.python.org/mailman/listinfo/python-de
> _______________________________________________
> python-de maillist  -  python-de at python.org
> http://mail.python.org/mailman/listinfo/python-de