25 oct. 2013

Extracción de datos en páginas web con Webscraping y Python

Continuando con la extracción de datos en la página timeanddate, la información de amanecer y atardecer en Venezuela.
En este caso se usará la librería webscraping. Para su instalación se usa el comando pip:
#pip install webscraping

En el artículo anterior se muestra como se ubica la información que se requiere.

A continuación se muestra el código:

#!/usr/bin/env python
#De webscraping se importa download y xpath
from webscraping import download, xpath
#Se define la instancia Download
D = download.Download()
#Se obtiene la informacion de la salida y ocultamiento del
#sol en Venezuela desde la pagina timeanddate.
html = D.get('http://www.timeanddate.com/worldclock/astronomy.html?n=58')
#Se busca la informacion en la tabla donde se muestra.
for row in xpath.search(html, '//table[@class="spad"]/tbody/tr'):
    #Se busca en la fila el tag /td
    cols = xpath.search(row, '/td')
    #Se muestra la informacion en pantalla
    print 'Amanecer: %s, Atardecer: %s' % (cols[1], cols[2])
A continuación se muestra el resultado de la ejecución del script:
Amanecer: 05:47, Atardecer: 17:36

Amanecer: 05:47, Atardecer: 17:36

Amanecer: 05:47, Atardecer: 17:36

Amanecer: 05:48, Atardecer: 17:35

Amanecer: 05:48, Atardecer: 17:35

Amanecer: 05:48, Atardecer: 17:35

Amanecer: 05:48, Atardecer: 17:34



Publicar un comentario en la entrada

AddThis