Cómo obtener el código HTML de una página web en Ruby

En navegadores como Firefox o Safari, con un sitio web abierto, puedo hacer clic derecho en la página y seleccionar algo como: "Ver origen de página" o "Ver código fuente". Esto muestra la fuente HTML para la página.Cómo obtener el código HTML de una página web en Ruby

En Ruby, ¿hay alguna función (tal vez una biblioteca) que me permita almacenar esta fuente HTML como variable? Algo como esto:

source = view_source(http://stackoverflow.com)

donde origen sería este texto:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"> 
<html> 
<head> 
<title>Stack Overflow</title> 
etc

Fuente

2010-11-18 Eric

Uso Net::HTTP:

require 'net/http' 

source = Net::HTTP.get('stackoverflow.com', '/index.html')

Fuente

2010-11-18 16:37:23 robbrit

usted podría utilizar la orden interna Net::HTTP:

>> require 'net/http' 
>> Net::HTTP.get 'stackoverflow.com', '/'

O una de las varias bibliotecas sugeridas en "Equivalent of cURL for Ruby?".

Fuente

2010-11-18 16:37:40

Sí, como este:

require 'open-uri' 

open('http://stackoverflow.com') do |file| 
    #use the source Eric 
    #e.g. file.each_line { |line| puts line } 
end

Fuente

2010-11-18 16:38:05 Skilldrick

+1 para usar la fuente: D – Doorknob

require 'open-uri' 
source = open(url){|f|f.read}

UPD: sintaxis más moderna

require 'open-uri' 
source = open(url, &:read)

Fuente

2010-11-18 16:38:47 Nakilon

Aún más corto: 'source = open (url) .read' –

@Mark Thomas, no cerrará la conexión. – Nakilon

¿Ambos cerrarán la conexión? –

Otra cosa que podría estar interesado en es Nokogiri. Es un analizador HTML, XML, etc. que es muy fácil de usar. Su página principal tiene un código de ejemplo que debería comenzar y ver si es lo que necesita.

Fuente

2010-11-18 16:39:35

Nokogiri no tiene nada que ver con la recuperación de una página, solo analiza la página una vez que ha sido recuperada por un cliente HTTP o leída desde un archivo. Es una distinción muy importante. –

@theTinMan - De hecho, esto fue más informativo y tal vez debería haber sido publicado como un comentario en lugar de una respuesta. Mi suposición era que después de obtener el HTML, el OP querría hacer algo con él :-) –

Esperamos que quieran hacer algo más con él, en lugar de obstruir una red y atascar una CPU. –

Si tiene cURL instalado, usted podría simplemente:

url = 'http://stackoverflow.com' 
html = `curl #{url}`

Si desea utilizar Ruby puro, mirar el Net::HTTP biblioteca:

require 'net/http' 
stack = Net::HTTP.new 'stackoverflow.com' 
# ...later... 
page = '/questions/4217223/how-to-get-the-html-source-of-a-webpage-in-ruby' 
html = stack.get(page).body

Fuente

2010-11-18 16:40:27 Phrogz

require 'mechanize' 

agent = Mechanize.new 
page = agent.get('http://google.com/') 

puts page.body

a continuación, puede hacer una muchas otras cosas interesantes con mecanizar también.

Fuente

2010-11-18 16:42:57 Beanish

require 'open-uri' 
source = open(url).read

corto, simple, dulce.

Fuente

2010-11-18 17:36:24

No se cerrará la conexión. – Nakilon

Cómo obtener el código HTML de una página web en Ruby

Respuesta

Cuestiones relacionadas