2010-06-14 20 views
5

Estoy trabajando en un complemento de navegador para Firefox, y me gustaría poder hacer algunas pruebas automatizadas para asegurarme de que maneja correctamente una variedad de características diferentes de HTML/JavaScript. ¿Alguien sabe de un buen corpus descargable de páginas HTML y/o JavaScript que podrían utilizarse para este tipo de pruebas?HTML Test Corpus descargable

+0

plase especifique requisitos adicionales: ¿Qué debe contener una página html? ¿Qué no está permitido contener? ¿Cuál es el comportamiento preferido de dicha página? Dependiendo de su respuesta a estas preguntas, es posible generar automáticamente un corpus. – artistoex

Respuesta

2

Dotbot publica archivo torrent con 14 GB de HTML indexado en 2009.

+0

Esto es bastante parecido a lo que estaba pensando. ¡Gracias! –

+0

Parece que no existe en 2014. – bain

0

¿Te refieres como esta página: http://acid3.acidtests.org/ ?

+0

No creo, por lo que puedo decir, las pruebas de ácido se centran en el cumplimiento de las normas, especialmente w.r.t. DOM y JavaScript. Me gustaría tener páginas más realistas que no sean completamente compatibles, tener otros tipos de funciones de JavaScript, etc. –

0

El proyecto WebKit usa SunSpider, que tiene pruebas basadas en patrones de diseño del "mundo real".

El conjunto de prueba HTML de Ian Hickson puede tener algo similar a lo que usted está buscando.

0

Este ECMAScript 5 test suite prueba (¿casi?) Todas las funciones de JavaScript de la norma actual. Solo las características específicas del navegador no se prueban.

2

No sé de un envasados, listos para ir corpus de documentos HTML/JavaScript (aunque parece que algún otro modo la gente.) Si estuviera en tu situación, construiría mi propio corpus (sabrás que es actual y sabrás exactamente con lo que estás lidiando).

para construir su propia, puede enganchar uno de the open source crawlers, o simplemente utilizar wget de forma recursiva:

wget -t 7 -w 5 --waitretry=14 --random-wait -l 2 -m -k -K -e robots=off http://stackoverflow.com -o ./myLog.log 

desea extender el anterior? Cree una secuencia de comandos que capture una lista n superior de sitios de Google e inyéctelos en el comando wget anterior.

+0

¿Sabes cómo evitar que 'wget' descargue archivos de gran tamaño? (ZIP, ISO, etc. vinculados en las páginas?) He intentado 'wget' una vez, pero terminé chupando una gran cantidad de basura no HTML. Además, no debe sugerir 'robots = off' para el rastreo general. Esa no es una buena ciudadanía. – Kornel

+0

@pornel - A: Estoy de acuerdo, robots = apagado es una mala idea para el rastreo general, pero en casos únicos como el anterior, no veo un problema. B: Parece que podrías agregar una opción para wget para ver la longitud del contenido en el encabezado (si el servidor lo incluye en la respuesta). No creo que en este momento tenga esto implementado, pero no sé mucho de wget. Alguien tiene detalles sobre esto? – labratmatt

+0

Esto funcionó muy bien para stackoverflow.com. ¿Alguna idea de por qué solo está sacando algunas páginas para algo como yelp.com? –

Cuestiones relacionadas