Un amigo mío necesita leer muchos datos (alrededor de 18000 conjuntos de datos) que están todos formateados molestamente. Específicamente, se supone que los datos son 8 columnas y ~ 8000 filas de datos, pero en su lugar los datos se entregan en columnas de 7 con la última entrada en la primera columna de la siguiente fila.Python: cómo leer un archivo de datos con un número impar de columnas
Además cada ~ 30 filas solo hay 4 columnas. Esto se debe a que algunos programas en sentido ascendente están remodelando una matriz de 200 x 280 en la matriz 7x8120.
Mi pregunta es esta: ¿cómo podemos leer los datos en una matriz de 8x7000. Mi arsenal habitual de np.loadtxt y np.genfromtxt falla cuando hay un número desigual de columnas.
Tenga en cuenta que el rendimiento es un factor, ya que esto tiene que hacerse para ~ 18000 archivos de datos.
Aquí hay un enlace a un archivo de datos típico: http://users-phys.au.dk/hha07/hk_L1.ref
Para aclarar: cada 24 filas hay una fila de 4 columnas debido al "desbordamiento" continuo de las ocho columnas en cada fila siguiente. ¿Derecha? Cada bloque de 24 * 7 + 4 tiene 200 elementos, que es divisible de manera equitativa por 8. –
Un ejemplo sería muy útil. –
¿Qué le parece si repara el programa original para producir buenos archivos HDF5, o al menos algo menos loco que esto? –