Me gustaría calcular los intervalos de predicción para las predicciones realizadas por la regresión kNN. No encuentro ninguna referencia explícita que lo confirme, así que mi pregunta es: ¿es correcto este enfoque para calcular los intervalos de predicción?
Tengo un conjunto de datos de referencia en el que cada fila es una ubicación (por ejemplo, una ciudad). Tengo dos características (digamos, x1 y x2), que describen una muestra de la población de esa localidad (por ejemplo, x1 podría ser la renta media de los residentes). El tamaño de la muestra es diferente para cada localidad. Predigo una variable objetivo (digamos, y, por ejemplo, el número total de coches en esa ciudad) basándome en x1 y x2.
Una predicción para una nueva ubicación Z se realiza encontrando los k vecinos más cercanos de Z en términos de x1 y x2 (la distancia euclidiana), y promediando sobre la variable objetivo de esos k vecinos.
Calculo los intervalos de predicción como y* +- t*s, donde s es la desviación estándar del objetivo entre los k vecinos más cercanos, y t procede de la distribución normal estándar (por ejemplo, para un intervalo de predicción del 95% t=1,96). Ignoro x1 y x2, e ignoro el hecho de que x1 y x2 se estiman sobre muestras diferentes. ¿Tiene sentido este enfoque?