Me encontré con pandas y parece ideal para cálculos simples que me gustaría hacer. Tengo antecedentes de SAS y pensaba que reemplazaría proc freq, parece que se ampliará a lo que pueda querer hacer en el futuro. Sin embargo, parece que no puedo entender una tarea simple (no estoy seguro si debo mirar pivot/crosstab/indexing
- si debería tener un Panel
o DataFrames
etc ...). Podría alguien darme algunos consejos sobre cómo hacer lo siguiente:Tabulación cruzada simple en pandas
Tengo dos archivos CSV (una para el año 2010, uno para el año 2011 - datos transaccionales simples) - Las columnas son de categoría y la cantidad
2010:
AB,100.00
AB,200.00
AC,150.00
AD,500.00
2011:
AB,500.00
AC,250.00
AX,900.00
Estos se cargan en objetos trama de datos separadas.
Lo que me gustaría hacer es obtener la categoría, la suma de la categoría, y la frecuencia de la categoría, por ejemplo:
2010:
AB,300.00,2
AC,150.00,1
AD,500.00,1
2011:
AB,500.00,1
AC,250.00,1
AX,900.00,1
No puedo determinar si debería usar pivot/crosstab/groupby/an index
etc ... Puedo obtener la suma o la frecuencia, parece que no puedo obtener ambas ... Se vuelve un poco más compleja porque me gustaría hacerlo mes por mes, pero creo que si alguien fuera tan amable de indicarme la técnica/dirección correcta, podré ir desde allí.
Entonces, ¿está diciendo que cada archivo '.csv' es solo una fila, y luego en esa única fila, el primer valor es el año seguido de los datos tal como se presentan arriba? – benjaminmgross
Hola Factor3, así es como S/O decidió formatearlo (la primera vez que lo usé, así que tendré que buscarlo en el futuro) ... Déjenme aclarar ... hay dos archivos: 2010. csv y 2011.csv; estos contienen 'n' muchas filas, cada una de las cuales contiene dos columnas. Estaba tratando de simplificar la pregunta, pero estoy de acuerdo en que el formato es algo engañoso ahora que lo he leído. –
He proporcionado varios ejemplos detallados y enfoques alternativos en este [** Q & A **] (https://stackoverflow.com/q/47152691/2336654) que usted u otros pueden encontrarle útil. – piRSquared