Según lo indicado en el texto citado, todos los valores faltantes pertenecen a la misma columna para la misma clase, Iris Setosa. Esto sugiere un posible error sistemático en el método de recopilación/entrada de datos, lo que podría significar que aún más de estos valores están faltando.
¿Por qué eliminar estas filas sesgaría nuestros resultados?
Si simplemente eliminamos estos puntos de datos, estaríamos desechando información. Debido a que todos estos valores pertenecen a la misma clase, desechar estas filas podría resultar en un problema de desequilibrio de clases. Además, perderíamos la información sobre la clase Iris Setosa proporcionada por las otras columnas. Además, el hecho de que este error aparezca sistemáticamente propagado podría resultar útil en el análisis.
¿Cómo ayudaría la imputación de la media con esto?
La imputación de estos valores utilizando el valor medio para la clase mejora los problemas mencionados anteriormente: mantenemos la información proporcionada por las otras columnas y no alteramos el equilibrio de clases del conjunto de datos.
La imputación de la media también proporciona algunos otros beneficios:
Sin embargo, cabe destacar que la imputación de la media reduce las medidas de dispersión en el conjunto de datos, y no es ideal para problemas multivariables; existen soluciones de imputación mucho mejores.