Estoy recortando una página html con nokogiri y quiero quitar todos los atributos de estilo.
¿Cómo puedo lograr esto? (No estoy usando los carriles, así que no puedo utilizar es el método de higienización y yo no quiero usar la gema desinfectar porque yo quiero a la lista negra no retire lista blanca)Atributos de estilo de tira con nokogiri
html = open(url)
doc = Nokogiri::HTML(html.read)
doc.css('.post').each do |post|
puts post.to_s
end
=> <p><span style="font-size: x-large">bla bla <a href="http://torrentfreak.com/netflix-is-killing-bittorrent-in-the-us-110427/">statistica</a> blabla</span></p>
quiero que sea
=> <p><span>bla bla <a href="http://torrentfreak.com/netflix-is-killing-bittorrent-in-the-us-110427/">statistica</a> blabla</span></p>
wow. ¡eso es fácil! Lo amo. ¡Gracias! – keepitterron
Use 'doc.xpath ('.//@stilo'). Remove' para eliminar todos los estilos en línea de todos los nodos, observe el' .' al principio como lo menciona @bricker a continuación. Encadena '.to_s' para obtener la cadena html resultante. –
Corrección: No lo encadene pero use 'description.to_s' para obtener la cadena html resultante. Si no desea el 'DOCTYPE', debe usar el método' Nokogiri :: HTML.fragment' en su lugar, vea http://stackoverflow.com/questions/4723344/how-to-prevent-nokogiri-from-adding- doctype-tags –