4 votos

Cómo encontrar casos duplicados en un gran conjunto de datos?

Tengo un gran conjunto de datos que se compone de las respuestas de 600 compradores en 15 variables.

Cuando me calcular las respuestas, viene a 603. Sé que hay 600 encuestados, así que debo tener registraron las respuestas de tres personas dos veces.

En lugar de revisar cada cuestionario contra el conjunto de datos, puede ejecutar una prueba en Excel que destaca la de la entradas dobles.

15voto

pauly Puntos 932

Supongamos que se tienen números de IDENTIFICACIÓN en la columna a, a partir de la fila 2 a través de 604, y un espacio en blanco de la columna B. En la celda B2 tipo "=countif(\$a\$2:\$a\$604,a2)". Copia la fórmula de todo el camino hacia abajo. El número en cada celda de la columna B de ahora será el número de veces que su fila ID que aparece.

1voto

Funkatron Puntos 757

No estoy seguro acerca de excel, pero usted puede importar los datos en R y utilizar el duplicado de la función() para determinar que las filas son duplicados. Sin embargo, con 603 observaciones y 15 variables y probablemente tendrás muchas más observaciones que las 3 escribió en dos veces (tal vez no, depende de la distribución de las variables). No sé cómo va a determinar los cuales 3 son los verdaderos duplicados sin conocer el 3 que está buscando.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X