11 votos

Intervalos de predicción para la regresión kNN

Me gustaría calcular los intervalos de predicción para las predicciones realizadas por la regresión kNN. No encuentro ninguna referencia explícita que lo confirme, así que mi pregunta es: ¿es correcto este enfoque para calcular los intervalos de predicción?

Tengo un conjunto de datos de referencia en el que cada fila es una ubicación (por ejemplo, una ciudad). Tengo dos características (digamos, x1 y x2), que describen una muestra de la población de esa localidad (por ejemplo, x1 podría ser la renta media de los residentes). El tamaño de la muestra es diferente para cada localidad. Predigo una variable objetivo (digamos, y, por ejemplo, el número total de coches en esa ciudad) basándome en x1 y x2.

Una predicción para una nueva ubicación Z se realiza encontrando los k vecinos más cercanos de Z en términos de x1 y x2 (la distancia euclidiana), y promediando sobre la variable objetivo de esos k vecinos.

Calculo los intervalos de predicción como y* +- t*s, donde s es la desviación estándar del objetivo entre los k vecinos más cercanos, y t procede de la distribución normal estándar (por ejemplo, para un intervalo de predicción del 95% t=1,96). Ignoro x1 y x2, e ignoro el hecho de que x1 y x2 se estiman sobre muestras diferentes. ¿Tiene sentido este enfoque?

4voto

rkthkr Puntos 6651

Tienes dos opciones, creo.

  1. Bootstrap

Generar 100 conjuntos de datos sintéticos mediante muestreo con reemplazo del conjunto de datos original. Ejecute la regresión knn sobre cada nuevo conjunto de datos y clasifique las predicciones puntuales. El intervalo de confianza es sólo la distancia entre la 5ª y la 95ª predicción puntual.

  1. Pseudo-Residuos

Básicamente, se utiliza un estimador de la varianza agrupada (si se tienen varias observaciones en el mismo $x$ ) o pseudo-residuos para obtener una estimación de la varianza. Suponiendo un error homoscedástico y normal se puede utilizar la distribución t de tal manera que:
$ \bar y_i \pm t(h,\alpha) \frac{\sigma}{\sqrt{n_i}}$
Donde $\bar y$ es la media prevista, $h = \frac{n-2}{n}$ son los grados de libertad de la distribución t y $n_i$ es el número de puntos en la vecindad.

Puede leer más al respecto aquí

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X