BeautifulSoup, un diccionario de una tabla HTML

Estoy tratando de raspar los datos de la tabla de un sitio web.BeautifulSoup, un diccionario de una tabla HTML

Aquí es una sencilla tabla de ejemplo:

t = '<html><table>' +\ 
    '<tr><td class="label"> a </td> <td> 1 </td></tr>' +\ 
    '<tr><td class="label"> b </td> <td> 2 </td></tr>' +\ 
    '<tr><td class="label"> c </td> <td> 3 </td></tr>' +\ 
    '<tr><td class="label"> d </td> <td> 4 </td></tr>' +\ 
    '</table></html>'

deseado resultado de análisis es {' a ': ' 1 ', ' b ': ' 2 ', ' c ': ' 3 ', ' d ' : ' 4' }

Este es mi intento más cercano hasta el momento:

for tr in s.findAll('tr'): 
    k, v = BeautifulSoup(str(tr)).findAll('td') 
    d[str(k)] = str(v)

El resultado es:

{'<td class="label"> a </td>': '<td> 1 </td>', '<td class="label"> d </td>': '<td> 4 </td>', '<td class="label"> b </td>': '<td> 2 </td>', '<td class="label"> c </td>': '<td> 3 </td>'}

Conozco el parámetro text=True de findAll() pero no obtengo los resultados esperados cuando lo uso.

Estoy usando Python 2.6 y BeautifulSoup3.

Fuente

2012-08-10 jon

Prueba esto:

from BeautifulSoup import BeautifulSoup, Comment 

t = '<html><table>' +\ 
    '<tr><td class="label"> a </td> <td> 1 </td></tr>' +\ 
    '<tr><td class="label"> b </td> <td> 2 </td></tr>' +\ 
    '<tr><td class="label"> c </td> <td> 3 </td></tr>' +\ 
    '<tr><td class="label"> d </td> <td> 4 </td></tr>' +\ 
    '</table></html>' 

bs = BeautifulSoup(t) 

results = {} 
for row in bs.findAll('tr'): 
    aux = row.findAll('td') 
    results[aux[0].string] = aux[1].string 

print results

Fuente

2012-08-10 12:43:10 mvillaress

se puede seguir el mismo enfoque que mvillaress, pero mejorarlo un poco, usando List Comprehensions:

from BeautifulSoup import BeautifulSoup 

t = '<html><table>' +\ 
    '<tr><td class="label"> a </td> <td> 1 </td></tr>' +\ 
    '<tr><td class="label"> b </td> <td> 2 </td></tr>' +\ 
    '<tr><td class="label"> c </td> <td> 3 </td></tr>' +\ 
    '<tr><td class="label"> d </td> <td> 4 </td></tr>' +\ 
    '</table></html>' 

bs = BeautifulSoup(t) 
tds = [row.findAll('td') for row in bs.findAll('tr')] 
results = { td[0].string: td[1].string for td in tds } 
print results

Fuente

2014-11-18 16:37:04 rjfv

Si está raspando una tabla tiene un explícito " thead "y" tbody "como:

<table> 
    <thead> 
     <tr> 
      <th>Total</th> 
      <th>Finished</th> 
      <th>Unfinished</th> 
     </tr> 
    </thead> 
    <tbody> 
     <tr> <td>63</td> <td>33</td> <td>2</td> </tr> 
     <tr> <td>69</td> <td>29</td> <td>3</td> </tr> 
     <tr> <td>57</td> <td>28</td> <td>1</td> </tr> 
    </tbody> 
</table>

Puede usar lo siguiente:

headers = [header.text_content() for header in table.cssselect("thead tr th")] 
results = [{headers[i]: cell.text_content() for i, cell in enumerate(row.cssselect("td"))} for row in table.cssselect("tbody tr")]

Esto producirá:

[ 
    {"Total": "63", "Finished": "33", "Unfinished": "2"}, 
    {"Total": "69", "Finished": "29", "Unfinished": "3"}, 
    {"Total": "57", "Finished": "28", "Unfinished": "1"} 
]

P. S. Esto está usando lxml.html. Si está utilizando BeautifulSoup, reemplace ".text_content()" con ".string" y ".cssselect" con ".findAll".

Fuente

2014-11-30 15:27:31

BeautifulSoup, un diccionario de una tabla HTML

Respuesta

Cuestiones relacionadas