Estoy trabajando en un complemento de navegador para Firefox, y me gustaría poder hacer algunas pruebas automatizadas para asegurarme de que maneja correctamente una variedad de características diferentes de HTML/JavaScript. ¿Alguien sabe de un buen corpus descargable de páginas HTML y/o JavaScript que podrían utilizarse para este tipo de pruebas?HTML Test Corpus descargable
Respuesta
¿Te refieres como esta página: http://acid3.acidtests.org/ ?
No creo, por lo que puedo decir, las pruebas de ácido se centran en el cumplimiento de las normas, especialmente w.r.t. DOM y JavaScript. Me gustaría tener páginas más realistas que no sean completamente compatibles, tener otros tipos de funciones de JavaScript, etc. –
Este ECMAScript 5 test suite prueba (¿casi?) Todas las funciones de JavaScript de la norma actual. Solo las características específicas del navegador no se prueban.
No sé de un envasados, listos para ir corpus de documentos HTML/JavaScript (aunque parece que algún otro modo la gente.) Si estuviera en tu situación, construiría mi propio corpus (sabrás que es actual y sabrás exactamente con lo que estás lidiando).
para construir su propia, puede enganchar uno de the open source crawlers, o simplemente utilizar wget de forma recursiva:
wget -t 7 -w 5 --waitretry=14 --random-wait -l 2 -m -k -K -e robots=off http://stackoverflow.com -o ./myLog.log
desea extender el anterior? Cree una secuencia de comandos que capture una lista n superior de sitios de Google e inyéctelos en el comando wget anterior.
¿Sabes cómo evitar que 'wget' descargue archivos de gran tamaño? (ZIP, ISO, etc. vinculados en las páginas?) He intentado 'wget' una vez, pero terminé chupando una gran cantidad de basura no HTML. Además, no debe sugerir 'robots = off' para el rastreo general. Esa no es una buena ciudadanía. – Kornel
@pornel - A: Estoy de acuerdo, robots = apagado es una mala idea para el rastreo general, pero en casos únicos como el anterior, no veo un problema. B: Parece que podrías agregar una opción para wget para ver la longitud del contenido en el encabezado (si el servidor lo incluye en la respuesta). No creo que en este momento tenga esto implementado, pero no sé mucho de wget. Alguien tiene detalles sobre esto? – labratmatt
Esto funcionó muy bien para stackoverflow.com. ¿Alguna idea de por qué solo está sacando algunas páginas para algo como yelp.com? –
- 1. Ruby on Rails: descargable
- 2. Ruso-Inglés Palabra paralela Corpus?
- 3. Frase corpus para análisis sentimental
- 4. Creando un nuevo corpus con NLTK
- 5. R derivando una cadena/documento/corpus
- 6. Crear archivo descargable en Ruby on Rails
- 7. Manual de referencia de Clojure descargable
- 8. ¿Qué opina del omnipresente "Test, Test, Test!" ¿principio?
- 9. CMake & CTest: make test does build test
- 10. AngularJS Test Example
- 11. ¿Cuál es la diferencia entre db: test: clone, db: test: clone_structure, db: test: load y db: test: prepare?
- 12. XSS Torture Test - ¿existe?
- 13. Creando un corpus categorizado personalizado en NLTK y Python
- 14. ¿Cómo puedo encontrar solo palabras "interesantes" de un corpus?
- 15. Ventajas de crear mi propio corpus en NLTK
- 16. ¿Qué corpus de spam puedo usar en NLTK?
- 17. ¿Cómo creo mi propio corpus de entrenamiento para stanford tagger?
- 18. Versión descargable/navegable del código fuente de .NET Framework?
- 19. Crear un enlace a un archivo descargable en Orchard CMS
- 20. ¿Cómo generar un PDF descargable con pdfbox (PDF dañado)?
- 21. Cómo convertir pdf Byte [] Matriz a archivo descargable usando iTextSharp
- 22. ¿Cómo crear un enlace descargable al archivo de texto?
- 23. Cómo hacer enlace temporal por un archivo descargable
- 24. Selenium Test Case vs. Test Suite frente a uso general
- 25. Utilizando Test Framework Android
- 26. NUnit Rollback After Test
- 27. condicional ("Test") + #if DEBUG
- 28. Google Test Fixtures
- 29. WCF Unit Test
- 30. Unit Test NSOperation?
plase especifique requisitos adicionales: ¿Qué debe contener una página html? ¿Qué no está permitido contener? ¿Cuál es el comportamiento preferido de dicha página? Dependiendo de su respuesta a estas preguntas, es posible generar automáticamente un corpus. – artistoex