Digamos que tengo cuatro muestras: id = 1, 2, 3 y 4, con una o más mediciones en cada una de las muestras:eliminar duplicados de mantenimiento de la entrada con el valor absoluto más grande
> a <- data.frame(id=c(1,1,2,2,3,4), value=c(1,2,3,-4,-5,6))
> a
id value
1 1 1
2 1 2
3 2 3
4 2 -4
5 3 -5
6 4 6
Quiero eliminar duplicados, manteniendo solo una entrada por ID, la que tiene el mayor valor absoluto de la columna "valor". Es decir, esto es lo que quiero:
> a[c(2,4,5,6), ]
id value
2 1 2
4 2 -4
5 3 -5
6 4 6
¿Cómo puedo hacer esto en R?
Usted menciona "* manteniendo sólo una entrada por la identificación - el que tiene el mayor valor absoluto del 'valor' columna. * "¿Cuál es el comportamiento deseado si más de una entrada por ID coincide con esa condición? ¿Devuelve ambos valores o uno? Por ejemplo, ¿cuál es tu salida deseada si 'a [3, 2] <- 4'? – A5C1D2H2I1M1N2O1R2T1
Ah ... esa es una buena pregunta. La columna de valor es un número realmente real, no un número entero, y muy probablemente nunca será exactamente igual. El comportamiento ideal deseado debería ser descartar ambas observaciones, pero probablemente esto no sucederá como dije. –
Gracias a todos por la ayuda. –