Tengo un código R que debo portar a python. Sin embargo, los datos y el marco mágico de R me impiden encontrar una buena forma de hacerlo en Python.Calcular dentro de las categorías: ¿Equivalente de ddply de R en Python?
de datos de ejemplo (R): cálculo
x <- data.frame(d=c(1,1,1,2,2,2),c=c(rep(c('a','b','c'),2)),v=1:6)
muestra: salida
y <- ddply(x, 'd', transform, v2=(v-min(v))/(max(v)-min(v)))
muestra:
d c v v2
1 1 a 1 0.0
2 1 b 2 0.5
3 1 c 3 1.0
4 2 a 4 0.0
5 2 b 5 0.5
6 2 c 6 1.0
Así que aquí es mi pregunta para los Pythonistas por ahí: ¿Cómo ¿hacer lo mismo? Tienes una estructura de datos con un par de dimensiones importantes.
Para cada uno (c), y cada (d) cálculo (v-mín (v))/(máximo (v) -min (v))) y asócielo con el par correspondiente (d, c).
Siéntase libre de usar cualquier estructura de datos que desee, siempre y cuando sean rápidos en conjuntos de datos razonablemente grandes (los que caben en la memoria).
Gracias por el minucioso ejemplo. – evanrsparks