Obtenir une liste de toutes les églises dans un certain état en utilisant Python

voix
-3

Je suis assez bien avec Python, pseudo-code SUFFIT lorsque les détails sont insignifiants. S'il vous plaît me lancer sur la tâche - Comment s'y prendre pour ramper sur le net pour les adresses de courrier d'escargot d'églises dans mon état. Une fois que j'ai un revêtement tel que « 123 Old West Road # 3 Ville Old Lyme MD 01234 », je peux probablement analyser dans la ville, l'État, la rue, le numéro, apt avec suffisamment de tâtonnement. Mon problème est - si j'utilise en ligne des pages blanches, alors comment puis-je gérer tous les déchets HTML, tables HTML, annonces, etc? Je ne pense pas avoir besoin de leur numéro de téléphone, mais il ne fera pas mal - je peux toujours jeter une fois analysé. Même si votre solution est demi-manuelle (par exemple, sauf en pdf, puis ouvrez acrobate, sauf sous forme de texte) - je pourrais être heureux avec elle encore. Merci! Zut, je vais même accepter des extraits Perl - je peux les traduire moi-même.

Créé 14/12/2009 à 23:29
source utilisateur
Dans d'autres langues...                            


5 réponses

voix
2

Essayez lynx --dump <url>de télécharger les pages Web. Toutes les balises HTML gênants seront supprimés de la sortie, et tous les liens de la page apparaîtront ensemble.

Créé 14/12/2009 à 23:36
source utilisateur

voix
2

Vous pouvez utiliser mécaniser . Il est une bibliothèque Python qui simule un navigateur, vous pouvez donc ramper à travers les pages blanches ( de façon similaire à ce que vous faites manuellement).

Afin de traiter avec le python « ordure html » a une bibliothèque pour cela aussi: BeautifulSoup Il est une belle façon d'obtenir les données que vous voulez de HTML (bien sûr , il suppose que vous savez un peu sur le langage HTML, comme vous encore doivent naviguer dans l'arborescence d'analyse syntaxique).

Mise à jour: En ce qui concerne votre question de suivi sur la façon de cliquer sur plusieurs pages. mécaniser est une bibliothèque pour le faire. Jetez un oeil de plus près leurs exemples, esp. la méthode de follow_link. Comme je l'ai dit il simule un navigateur, donc « clic » peut être réalisé rapidement en python.

Créé 14/12/2009 à 23:42
source utilisateur

voix
2

Qu'est - ce que vous essayez de faire est appelé Grattage ou en grattant Web.

Si vous faites des recherches sur python et le grattage , vous trouverez une liste des outils qui vous aideront.

(Je ne l'ai jamais utilisé scrapy, mais il est le site semble prometteur :)

Créé 14/12/2009 à 23:46
source utilisateur

voix
2

Beautiful Soup est un doux euphémisme. Voici un site que vous pourriez commencer à http://www.churchangel.com/ . Ils ont une liste énorme et la mise en forme est très régulière - traduction: facile à BSoup de configuration pour racler.

Créé 15/12/2009 à 00:17
source utilisateur

voix
1

Les scripts Python pourraient ne pas être le meilleur outil pour ce travail, si vous cherchez juste pour les adresses des églises dans une zone géographique.

Le recensement des États - Unis fournit un ensemble de données d'églises pour une utilisation avec les systèmes d'information géographique. Si trouver toutes les xdans une zone spatiale est un problème récurrent, investir dans l' apprentissage d' un SIG. Ensuite , vous pouvez apporter vos compétences en Python à prendre appui sur de nombreuses tâches géographiques.

Créé 15/12/2009 à 00:34
source utilisateur

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more