4 votos

¿Cómo funciona realmente la imputación kNN?

Tengo entendido que la imputación kNN, al ser una imputación multivariante, es "mejor" que los enfoques univariantes como SimpleImputer en el sentido de que tiene en cuenta múltiples variables, lo que intuitivamente parece una estimación más fiable o precisa del valor que falta.

Pero, ¿cuál es su mecánica?
¿Cómo se determina cuál es el vecino más próximo ?

Bonificación: ¿Cómo se determina k mejor?

2voto

Dipstick Puntos 4869

$k$ -Algoritmo NN es bastante simple, se necesita una métrica de distancia, digamos Distancia euclidiana y luego lo utilizas para comparar la muestra con cualquier otra muestra del conjunto de datos. Como predicción, se toma la media de los $k$ muestras más similares o su modo en caso de clasificación. $k$ suele elegirse de forma empírica para que proporcione el mejor rendimiento del conjunto de validación.

Métodos multivariantes para introducir valores perdidos no tienen que serán mejores que las univariantes. Serán mejores si dispone de datos relevantes y de alta calidad. Sin embargo, si su conjunto de datos es pequeño, es posible que encuentre algunos patrones espurios y empiece a imputar basándose en ellos. En tal caso, el resultado será peor que si no tuviera en cuenta las otras variables. Los métodos multivariantes para introducir valores perdidos sólo tienen sentido si las otras variables le permiten hacer predicciones razonables para los valores perdidos. Por ejemplo, si le falta información sobre la edad de alguien, es poco probable que utilizar su sexo le ayude a adivinarla, ya que esas propiedades no están realmente relacionadas en la mayoría de los casos.

Aunque esto puede o no estar directamente relacionado con su pregunta, siempre debe tener en cuenta lo siguiente por qué faltan datos. Si el la falta no es aleatoria la imputación basada en datos puede dar lugar a resultados incorrectos. También puede leer la ¿Cuáles son los inconvenientes de utilizar la media para los valores que faltan? hilo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X