1 votos

Eliminación de valores nulos en el análisis de datos con Python

Recientemente he estado revisando un cuaderno Ipython que analiza el conjunto de datos de Iris. En un momento del cuaderno leí lo siguiente:

ingresar descripción de la imagen aquí

Estoy confundido/a con esta afirmación. ¿Por qué borrar estas 5 filas sesgaría nuestros resultados, y cómo ayudaría la imputación de la media con esto?

Gracias

1voto

DozenCrows Puntos 964

Podría sesgar el análisis en el sentido de que las otras columnas (que no son nulas) serían eliminadas de las estadísticas, ya que todas las filas serían eliminadas.

Dado que está claro que las entradas NaN afectan a todas las filas de Iris-Setosa, no tendría sentido sacrificar todas las demás columnas porque una de ellas no se aplica a esta clase cualitativa. Un enfoque mejor es cambiar todas las entradas NaN en filas de Iris-Setosa con la media para esa columna (también conocido como Imputación de la Media), lo que no cambia la media para esa columna, preservando la estadística para las otras filas.

1voto

Björn Puntos 457

Si la ausencia de datos depende de los valores faltantes no observados, entonces simplemente eliminar dichos registros tiende a oscurecer información importante (imagina que solo los registros sin una correlación perfecta entre variables tienen valores faltantes, entonces una correlación parecerá más fuerte sin estos valores).

La imputación de la media generalmente es una idea terrible y no debería usarse. Mejores alternativas incluyen cosas como la imputación múltiple, tomando valores de registros que son de alguna manera similares, etc., lo cual, por supuesto, hace suposiciones, pero al menos estas son más plausibles que las suposiciones increíblemente fuertes e implausibles que requerirías para que la eliminación de registros o la imputación de la media sean enfoques válidos.

0voto

Guest Puntos 6

Según lo indicado en el texto citado, todos los valores faltantes pertenecen a la misma columna para la misma clase, Iris Setosa. Esto sugiere un posible error sistemático en el método de recopilación/entrada de datos, lo que podría significar que aún más de estos valores están faltando.

¿Por qué eliminar estas filas sesgaría nuestros resultados?

Si simplemente eliminamos estos puntos de datos, estaríamos desechando información. Debido a que todos estos valores pertenecen a la misma clase, desechar estas filas podría resultar en un problema de desequilibrio de clases. Además, perderíamos la información sobre la clase Iris Setosa proporcionada por las otras columnas. Además, el hecho de que este error aparezca sistemáticamente propagado podría resultar útil en el análisis.

¿Cómo ayudaría la imputación de la media con esto?

La imputación de estos valores utilizando el valor medio para la clase mejora los problemas mencionados anteriormente: mantenemos la información proporcionada por las otras columnas y no alteramos el equilibrio de clases del conjunto de datos.

La imputación de la media también proporciona algunos otros beneficios:

  • La media de la muestra para esa respuesta de clase se mantiene sin cambios.

  • Es fácil.

  • El tamaño de la muestra sigue siendo el mismo.

Sin embargo, cabe destacar que la imputación de la media reduce las medidas de dispersión en el conjunto de datos, y no es ideal para problemas multivariables; existen soluciones de imputación mucho mejores.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X