Estoy desarrollando un analizador sintáctico en ruby que analiza algunos datos de texto no uniformes. ¿Alguien puede decirme dónde puedo obtener una buena cantidad de datos de texto claro para eso?Gran cantidad de datos de texto sin formato para el experimento de análisis
Respuesta
Así es que obtendrá una lista de muchos:
http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public
Y mi favorito es:
http://ftp.sunet.se/mirror/archive/ftp.sunet.se/pub/tv+movies/imdb/
Usted puede raspar Wikipedia (o simplemente ejecutar un montón de ella a través lynx -dump
). Eso también le daría una gran fuente de texto que no está en inglés también. Project Gutenberg sería otra buena fuente de grandes cantidades de texto sin formato.
+1 para Gutenberg. – Phrogz
@Phrogz: Solía ser un adicto a Gutenberg en mis días de "Palm Pilot y viajar en el autobús". –
Proyecte Gutenberg como una política de bot muy estricta, no permiten más de 100 visitas desde la misma dirección IP en un día. –
- 1. Diseño de base de datos para gran cantidad de datos
- 2. ¿Estructura de datos para almacenar una gran cantidad de datos?
- 3. análisis de un gran cantidad de texto basado en un juego constante de términos de búsqueda
- 4. Bases de datos versus texto sin formato
- 5. Conversión/análisis programático de código LaTeX a texto sin formato
- 6. optimización de mysql para una gran cantidad de datos
- 7. ¿Dónde puedo encontrar una gran cantidad de archivos de texto?
- 8. Análisis de datos para el formato de cadena incoherente
- 9. Transferir gran cantidad de datos en el servicio WCF
- 10. Eliminar gran cantidad de datos en el servidor sql
- 11. Cómo raspar una gran cantidad de tweets
- 12. Manejo de gran cantidad de datos en MyBatis
- 13. que muestra una gran cantidad de texto formateado en Python
- 14. Mover gran cantidad de archivos
- 15. gran cantidad de datos en muchos archivos de texto: ¿cómo procesarlos?
- 16. ¿Cuál es la mejor manera de traducir una gran cantidad de datos de texto?
- 17. Fusionar una gran cantidad de marcos de datos en R
- 18. Eliminar gran cantidad de archivos
- 19. Gran cantidad de constantes en Java
- 20. Exportar el registro en formato de texto sin formato
- 21. Mejor almacén de datos para grandes cantidades de datos con gran cantidad de lecturas y escrituras
- 22. Cargando una gran cantidad de datos en Postgres Hstore
- 23. agregando gran cantidad de elementos a DOM
- 24. High Runtime for Dictionary.Add para una gran cantidad de elementos
- 25. Concatenar una gran cantidad de archivos HDF5
- 26. ¿Cómo se produce una gran cantidad de datos?
- 27. Estándares de codificación: Gran cantidad de argumentos
- 28. ¿Cómo formateo correctamente los datos de texto sin formato para una aplicación de diccionario Perl simple?
- 29. API de contenido Java para una gran cantidad de archivos
- 30. Código de optimización para MKMapView - Gran cantidad de anotaciones
Mientras amazon us-east-1d esté arriba :) – Wes