Tengo alrededor de 100 archivos csv cada 100,000 x 40
filas
columnas. Me gustaría hacer un análisis estadístico sobre él, extraer algunos datos de muestra, trazar tendencias generales, hacer varianza y análisis de cuadrado R, y trazar algunos diagramas de espectros. Por ahora, estoy considerando numpy para el análisis.Python: Análisis en archivos CSV 100,000 líneas x 40 columnas
Me preguntaba qué problemas debería esperar con archivos tan grandes? Ya revisé datos erróneos. ¿Cuáles son sus recomendaciones sobre el análisis estadístico? ¿Sería mejor si simplemente dividiera los archivos y lo hiciera todo en Excel?
Esos no son archivos terriblemente grandes. ¿Porque lo preguntas? ¿Has intentado hacer lecturas simples para ver qué tan rápido será Python? –
A menos que esté casado con Python, puede ser mejor usar un lenguaje de estadísticas dedicado como R - ver http://www.r-project.org. –
Normalmente, las líneas y las filas son sinónimos cuando se habla de tablas. Supongo que te refieres a 40 columnas? –