agarrando el texto entre todas las etiquetas en Nokogiri?

¿Cuál sería la forma más eficiente de capturar todos los textos entre las etiquetas html?agarrando el texto entre todas las etiquetas en Nokogiri?

<div> 
<a> hi </a> 
....

montón de textos rodeados de etiquetas html.

Fuente

2009-10-03 KJW

Salida https://github.com/rgrove/ higienizar también – Abram

doc = Nokogiri::HTML(your_html) 
doc.xpath("//text()").to_s

Fuente

2009-10-03 05:38:39 khelll

gracias! Funciona bien +1 – rusllonrails

Utilice un analizador de Sax. Mucho más rápido que la opción XPath.

require "nokogiri" 

some_html = <<-HTML 
<html> 
    <head> 
    <title>Title!</title> 
    </head> 
    <body> 
    This is the body! 
    </body> 
</html> 
HTML 

class TextHandler < Nokogiri::XML::SAX::Document 
    def initialize 
    @chunks = [] 
    end 

    attr_reader :chunks 

    def cdata_block(string) 
    characters(string) 
    end 

    def characters(string) 
    @chunks << string.strip if string.strip != "" 
    end 
end 
th = TextHandler.new 
parser = Nokogiri::HTML::SAX::Parser.new(th) 
parser.parse(some_html) 
puts th.chunks.inspect

Fuente

2009-10-10 17:34:10

¿cómo se puede cambiar esto para obtener solo texto entre la etiqueta del cuerpo solo? – Omnipresent

Establezca un indicador y solo comience a capturar los caracteres después de ver la etiqueta corporal comenzar y detener la captura después de que se cierre la etiqueta corporal. –

Aquí es cómo conseguir todo el texto de la pregunta div de esta página:

require 'rubygems' 
require 'nokogiri' 
require 'open-uri' 

doc = Nokogiri::HTML(open("http://stackoverflow.com/questions/1512850/grabbing-text-between-all-tags-in-nokogiri")) 
puts doc.css("#question").to_s

Fuente

2009-10-14 04:44:29 pjb3

Just Do:

doc = Nokogiri::HTML(your_html) 
doc.xpath("//text()").text

Fuente

2013-01-06 21:02:10 arturodz

agarrando el texto entre todas las etiquetas en Nokogiri?

Respuesta

Cuestiones relacionadas