Noté algo extraño al usar Nokogiri recientemente. Todo el HTML que había estado analizando había recibido etiquetas de inicio y fin <html>
y <body>
.Cómo evitar que Nokogiri agregue etiquetas <DOCTYPE>?
<!DOCTYPE html PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN\" \"http://www.w3.org/TR/REC-html40/loose.dtd\">\n<html><body>\n
¿Cómo puedo evitar que Nokogiri haga esto?
IE, cuando lo haga:
doc = Nokogiri::HTML("<div>some content</div>")
doc.to_s
o:
doc.to_html
consigo el original:
<html blah><body>div>some content</div></body></html>
la versión de Nokogiri? – shingara
nokogiri (1.4.3.1) – holden