Estoy teniendo problemas para entender la maldición de la dimensionalidad. Específicamente, me encontré con él mientras se hace la scikit-learn
tutorial de python. Por favor alguien puede explicar lo de abajo en una manera más sencilla? Lo siento, he estado tratando de entender por el tiempo más largo y no puede entender cómo se les ocurrió el cálculo para el número de ejemplos de formación para lograr un eficiente KNN estimador?
Aquí está la explicación:
Para un estimador para ser eficaz, necesita la distancia entre vecinos de los puntos a ser menor que algún valor d, que depende del problema. En una dimensión, esto requiere, en promedio, n ~ 1/d puntos. En el contexto de la anterior KNN ejemplo, si los datos se describe por una función con valores que van de 0 a 1 y con el n de capacitación observaciones, a continuación, los nuevos datos serán no más lejos de 1/n. Por lo tanto, el vecino más cercano regla de decisión será eficaz tan pronto como 1/n es pequeña en comparación con la escala de entre-función de clase de variaciones.
Si el número de características es p, ahora requiere n ~ 1/d^p puntos. Supongamos que nos requieren de 10 puntos en una sola dimensión: Ahora 10^p puntos son necesarios en p dimensiones para allanar el [0, 1] el espacio. Como p se hace más grande, el número de puntos de entrenamiento necesarios para un buen estimador crece de manera exponencial.
EDIT: también es la tilde (~
) supone que representan de manera aproximada en que ejemplo? o el python tilde operador?