ruby
  • nokogiri
  • hpricot
  • 2009-10-12 11 views 23 likes 
    23

    dado:¿Cómo hago una búsqueda de expresiones regulares en Nokogiri para encontrar texto que coincida con un cierto comienzo?

    require 'rubygems' 
    require 'nokogiri' 
    value = Nokogiri::HTML.parse(<<-HTML_END) 
    "<html> 
    <body> 
        <p id='para-1'>A</p> 
        <div class='block' id='X1'> 
        <h1>Foo</h1> 
        <p id='para-2'>B</p> 
        </div> 
        <p id='para-3'>C</p> 
        <h2>Bar</h2> 
        <p id='para-4'>D</p> 
        <p id='para-5'>E</p> 
        <div class='block' id='X2'> 
        <p id='para-6'>F</p> 
        </div> 
    </body> 
    </html>" 
    HTML_END 
    

    que quiero hacer algo parecido a lo que puedo hacer en hpricot:

    divs = value.search('//div[@id^="para-"]') 
    
    1. ¿Cómo hago una búsqueda de patrones de elementos en el estilo de XPath?
    2. ¿Dónde encontraría la documentación para ayudarme? No vi esto en los rdocs.
    +0

    PSA: Para los que tratan de expresiones regulares más complejo, es probable que lo que usted está buscando: http://stackoverflow.com/questions/649963/ nokogiri-searching-for-div-using-xpath – DreadPirateShawn

    Respuesta

    64

    utilizar la función XPath starts-with:

    value.xpath('//p[starts-with(@id, "para-")]').each { |x| puts x['id'] } 
    
    +29

    ¡Wow, el mismo Aaron acaba de responder! – khelll

    +1

    @khelll ¿Qué hay de genial en Aaron? –

    +5

    Autor de Nokogiri y miembro del equipo central de RoR. – khelll

    2

    Y algunos documentos que estás buscando:

    16
    divs = value.css('div[id^="para-"]') 
    
    +0

    esto es un salvavidas – Onichan

    1
    Nokogiri::XML::Node.send(:define_method, 'xpath_regex') { |*args| 
        xpath = args[0] 
        rgxp = /\/([a-z]+)\[@([a-z\-]+)~=\/(.*?)\/\]/ 
        xpath.gsub!(rgxp) { |s| m = s.match(rgxp); "/#{m[1]}[regex(.,'#{m[2]}','#{m[3]}')]" } 
        self.xpath(xpath, Class.new { 
        def regex node_set, attr, regex 
         node_set.find_all { |node| node[attr] =~ /#{regex}/ } 
        end 
        }.new) 
    } 
    

    Uso:

    divs = Nokogiri::HTML(page.root.to_html). 
        xpath_regex("//div[@class~=/axtarget$/]//div[@class~=/^carbo/]") 
    
    Cuestiones relacionadas