Eliminación de valores nulos en el análisis de datos con Python

Question

Eliminación de valores nulos en el análisis de datos con Python

Preguntado el 4 de Julio, 2017: Cuando se hizo la pregunta
626 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Recientemente he estado revisando un cuaderno Ipython que analiza el conjunto de datos de Iris. En un momento del cuaderno leí lo siguiente:

Estoy confundido/a con esta afirmación. ¿Por qué borrar estas 5 filas sesgaría nuestros resultados, y cómo ayudaría la imputación de la media con esto?

Gracias

Preguntado el 4 de Julio, 2017 por Alexander Shukaev

Answer 1

3 Respuestas

Answer 2

1voto

DozenCrows Puntos 964

Podría sesgar el análisis en el sentido de que las otras columnas (que no son nulas) serían eliminadas de las estadísticas, ya que todas las filas serían eliminadas.

Dado que está claro que las entradas NaN afectan a todas las filas de Iris-Setosa, no tendría sentido sacrificar todas las demás columnas porque una de ellas no se aplica a esta clase cualitativa. Un enfoque mejor es cambiar todas las entradas NaN en filas de Iris-Setosa con la media para esa columna (también conocido como Imputación de la Media), lo que no cambia la media para esa columna, preservando la estadística para las otras filas.

Respondido el 4 de Julio, 2017 por DozenCrows (964 Puntos )

Answer 3

1voto

Björn Puntos 457

Si la ausencia de datos depende de los valores faltantes no observados, entonces simplemente eliminar dichos registros tiende a oscurecer información importante (imagina que solo los registros sin una correlación perfecta entre variables tienen valores faltantes, entonces una correlación parecerá más fuerte sin estos valores).

La imputación de la media generalmente es una idea terrible y no debería usarse. Mejores alternativas incluyen cosas como la imputación múltiple, tomando valores de registros que son de alguna manera similares, etc., lo cual, por supuesto, hace suposiciones, pero al menos estas son más plausibles que las suposiciones increíblemente fuertes e implausibles que requerirías para que la eliminación de registros o la imputación de la media sean enfoques válidos.

Respondido el 5 de Julio, 2017 por Björn (457 Puntos )

Answer 4

0voto

Guest Puntos 6

Según lo indicado en el texto citado, todos los valores faltantes pertenecen a la misma columna para la misma clase, Iris Setosa. Esto sugiere un posible error sistemático en el método de recopilación/entrada de datos, lo que podría significar que aún más de estos valores están faltando.

¿Por qué eliminar estas filas sesgaría nuestros resultados?

Si simplemente eliminamos estos puntos de datos, estaríamos desechando información. Debido a que todos estos valores pertenecen a la misma clase, desechar estas filas podría resultar en un problema de desequilibrio de clases. Además, perderíamos la información sobre la clase Iris Setosa proporcionada por las otras columnas. Además, el hecho de que este error aparezca sistemáticamente propagado podría resultar útil en el análisis.

¿Cómo ayudaría la imputación de la media con esto?

La imputación de estos valores utilizando el valor medio para la clase mejora los problemas mencionados anteriormente: mantenemos la información proporcionada por las otras columnas y no alteramos el equilibrio de clases del conjunto de datos.

La imputación de la media también proporciona algunos otros beneficios:

La media de la muestra para esa respuesta de clase se mantiene sin cambios.
Es fácil.
El tamaño de la muestra sigue siendo el mismo.

Sin embargo, cabe destacar que la imputación de la media reduce las medidas de dispersión en el conjunto de datos, y no es ideal para problemas multivariables; existen soluciones de imputación mucho mejores.

Respondido el 4 de Julio, 2017 por Guest (6 Puntos )

Eliminación de valores nulos en el análisis de datos con Python

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Eliminación de valores nulos en el análisis de datos con Python

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: