Estoy implementando una biblioteca de tabulación cruzada en Python como ejercicio de programación para mi nuevo trabajo, y tengo una implementación de los requisitos que funciona pero es poco elegante y redundante. Me gustaría un modelo mejor para él, algo que permita un movimiento agradable y limpio de datos entre el modelo base, almacenado como datos tabulares en archivos planos, y todos los resultados del análisis estadístico que puedan pedirse.¿Qué es un buen modelo de datos para la tabulación cruzada?
En este momento, tengo una progresión de un conjunto de tuplas para cada fila en la tabla, a un histograma que cuenta las frecuencias de las apariciones de las tuplas de interés, a un serializador que - algo torpemente - compila el salida en un conjunto de celdas de tabla para su visualización. Sin embargo, termino teniendo que regresar a la mesa o al histograma más a menudo de lo que quiero porque nunca hay suficiente información en el lugar.
¿Alguna idea?
Editar: Aquí hay un ejemplo de algunos datos, y lo que quiero ser capaz de construir desde . Tenga en cuenta que "." denota un poco de datos "faltantes", que es solo condicionalmente contados.
1 . 1
1 0 3
1 0 3
1 2 3
2 . 1
2 0 .
2 2 2
2 2 4
2 2 .
Si estuviera mirando la correlación entre las columnas 0 y 2 anteriores, esta es la tabla que tendría:
. 1 2 3 4
1 0 1 0 3 0
2 2 1 1 0 1
Además, me gustaría ser capaz de calcular el coeficiente de de frecuencia/total, frecuencia/subtotal, & c.
No es muy claro para mí lo que estás tratando de hacer. ¿Puede describir los requisitos o dar un ejemplo con algunos datos y mostrar las transformaciones que desea hacer? –
En este ejemplo, será mejor que lo escriba en orden de columna principal. – jonnii
jonnii, no soy un gran estadista; ¿Puedes aclarar a qué te refieres con eso? –