A veces necesito para obtener sólo la primera fila de un conjunto de datos agrupados por un identificador, como cuando la recuperación de edad y de género cuando hay varias observaciones por individuo. ¿Qué es un rápido (o la más rápida) para hacer esto en R? He utilizado agregado (a) por debajo y la sospecha de que hay mejores maneras. Antes de publicar esta pregunta he buscado un poco en google, encontré y trató de ddply, y se sorprendió de que era muy lento y me dio errores de memoria en mi conjunto de datos (400,000 filas x 16 cols, 7.000 de Identificadores únicos), mientras que el agregado() versión fue bastante rápida.
(dx <- data.frame(ID = factor(c(1,1,2,2,3,3)), AGE = c(30,30,40,40,35,35), FEM = factor(c(1,1,0,0,1,1))))
# ID AGE FEM
# 1 30 1
# 1 30 1
# 2 40 0
# 2 40 0
# 3 35 1
# 3 35 1
ag <- data.frame(ID=levels(dx$ID))
ag <- merge(ag, aggregate(AGE ~ ID, data=dx, function(x) x[1]), "ID")
ag <- merge(ag, aggregate(FEM ~ ID, data=dx, function(x) x[1]), "ID")
ag
# ID AGE FEM
# 1 30 1
# 2 40 0
# 3 35 1
#same result:
library(plyr)
ddply(.data = dx, .var = c("ID"), .fun = function(x) x[1,])
ACTUALIZACIÓN: Ver Chase respuesta y Matt Parker comentario por lo que considero que es el método más elegante. Ver a @Mateo Dowle la respuesta para la solución más rápida que utiliza la data.table
paquete.