Siempre estoy buscando grandes conjuntos de datos para probar varios tipos de programas. ¿Alguien tiene alguna sugerencia?Conjuntos de datos grandes
Respuesta
Eche un vistazo a netflix contest. Creo que expusieron su base de datos, o un gran subconjunto, para facilitar el concurso.
ACTUALIZACIÓN: Their faq dice que tienen 100 millones de entradas en el subconjunto que puede descargar.
Es posible que desee consultar la generación de datos aleatorios para Fuzz Testing. Eso le daría una cantidad bastante ilimitada de datos de prueba, y es más probable que llegue a casos límite.
Tal vez un poco más de información sobre qué tipo de datos de prueba desea, qué formato y para qué tipo de aplicaciones?
No sé cuál es su plataforma de destino, pero si está desarrollando una base de datos MSSQL, consulte Visual Studio for Database Professionals. Tiene una característica muy buena en la que puede generar datos para su esquema utilizando un plan de datos que puede definir.
Redgate también tiene una herramienta de generación de datos, pero no la he usado.
La ventaja es que puede crear un plan de generación de datos y usarlo para poblar su base de datos con grandes cantidades de datos consistentes que pueden ajustarse para probar áreas específicas de su esquema.
Quizás también desee comprobar theinfo por Aaron Swartz.
Desde el sitio
Este es un sitio para grandes conjuntos de datos y las personas que los aman: los raspadores y rastreadores que los recogen, los académicos y geeks que los procesan, los diseñadores y artistas que los visualizan. Es un lugar donde pueden intercambiar consejos y trucos, desarrollar y compartir herramientas, y comenzar a integrar sus proyectos particulares .
He trabajado con los conjuntos de descarga Wikimedia, que son enormes archivos XML. Desafortunadamente, su servidor de descarga parece tener actualmente problemas de espacio en el disco, por lo que muchos de los conjuntos de datos no están disponibles. Pero cuando está disponible, todo el conjunto de datos de la Wikipedia en inglés con un historial completo es de 2.8 TB (18 GB comprimidos).
Puede que desee echar un vistazo a los datos de la Asociación Estadística Estadounidense data expo - detalles de vuelo de todos los vuelos comerciales en los EE. UU. Durante los últimos 20 años - 120 millones de registros, 11 gigas de datos.
Un número de del.icio.us usuarios (incluyéndome a mí) páginas de etiquetas que contienen datos públicos que utilizan la etiqueta "publicdata". Puede encontrar ese archivo here y suscribirse a un canal RSS para esa etiqueta here. Suscríbase al feed y verá un flujo constante de conjuntos de datos interesantes que aparecen en la web.
No todos los conjuntos de datos son grandes, pero a menudo son interesantes.
Si está interesado en personalizar el tipo de datos que obtiene, consulte Kimono Labs.Es un software de raspado web que puede utilizar para eliminar cualquier sitio de forma gratuita sin límite de filas devueltas. Simplemente configure una API en él (puede usar su generador de url para borrar varias URL a la vez) y luego utilice su conjunto de datos personales como JSON, CSV o RSS.
- 1. Procesar grandes conjuntos de datos usando LINQ
- 2. SQLite para grandes conjuntos de datos?
- 3. triplestore para grandes conjuntos de datos
- 4. ICollectionView.filter de WPF con grandes conjuntos de datos
- 5. Optimización de Autocompletar para grandes conjuntos de datos
- 6. Trazado de conjuntos de datos muy grandes en R
- 7. interpolación de grandes conjuntos de datos sobre la marcha
- 8. cómo analizar grandes conjuntos de datos utilizando RDFLib?
- 9. ¿Está JavaScript listo para visualizar grandes conjuntos de datos?
- 10. C# LINQ y cálculos que involucran grandes conjuntos de datos
- 11. ¿Experiencias con Clojure STM para grandes conjuntos de datos?
- 12. sqlite o mysql para grandes conjuntos de datos
- 13. Conjuntos de datos grandes y gratuitos para experimentar con Hadoop
- 14. Rendimiento para agregar elementos grandes/conjuntos de datos al dom
- 15. Mover grandes conjuntos de datos de forma eficiente entre las tablas de SQL Server?
- 16. Django (?) Realmente lento con grandes conjuntos de datos después de hacer un perfil de python
- 17. Python: ¿calcula funciones de densidad de probabilidad multinomial en grandes conjuntos de datos?
- 18. ¿Existe un patrón de diseño para manejar grandes conjuntos de datos a través de Internet?
- 19. Implementación IList de archivo mapeado en memoria, para almacenar conjuntos de datos grandes "en la memoria"?
- 20. MySQL Inserción de grandes conjuntos de datos del archivo con Java
- 21. La mejor manera de almacenar y recuperar grandes conjuntos de datos con Java
- 22. ¿Cuál es la mejor manera de visualizar grandes conjuntos de datos en QT
- 23. La forma más rápida de migrar del servidor sql a sqlite para grandes conjuntos de datos
- 24. ¿Qué se puede hacer para mejorar el rendimiento de IE8 para grandes conjuntos de datos?
- 25. ¿Cómo puedo acelerar la iteración de grandes conjuntos de datos en Django?
- 26. CASO frente a consultas de ACTUALIZACIÓN múltiples para grandes conjuntos de datos - Rendimiento
- 27. ¿Qué debo usar para eliminar html escapado de grandes conjuntos de datos?
- 28. Transmisión de grandes conjuntos de resultados con MySQL
- 29. ¿Cómo paginar eficientemente grandes conjuntos de datos con PHP y MySQL?
- 30. Alternativas a un solo elemento <select multiple = "multiple"> para grandes conjuntos de datos