Estimación de la densidad de la ventana de Parzen es otro nombre para estimación de la densidad del núcleo . Es un método no paramétrico para estimar la función de densidad continua a partir de los datos.
Imagina que tienes algunos puntos de datos $x_1,\dots,x_n$ que provienen de una distribución común desconocida, presumiblemente continua $f$ . Usted está interesado en estimar la distribución dados sus datos. Una cosa que podría hacer es simplemente mirar la distribución empírica y tratarla como un equivalente muestral de la distribución verdadera. Sin embargo, si sus datos son continuos, lo más probable es que vea cada $x_i$ aparecen sólo una vez en el conjunto de datos, por lo que, basándose en esto, se podría concluir que los datos proceden de una distribución uniforme, ya que cada uno de los valores tiene la misma probabilidad. Afortunadamente, puedes hacer algo mejor que esto: puedes empaquetar tus datos en algún número de intervalos igualmente espaciados y contar los valores que caen en cada intervalo. Este método se basaría en la estimación de la histograma . Desgraciadamente, con el histograma acabas con un número de bins, en lugar de con una distribución continua, por lo que es sólo una aproximación.
Estimación de la densidad del núcleo es la tercera alternativa. La idea principal es que se aproxima $f$ por un mezcla de las distribuciones continuas $K$ (utilizando su notación $\phi$ ), llamado granos que se centran en $x_i$ puntos de datos y tienen escala ( ancho de banda ) igual a $h$ :
$$ \hat{f_h}(x) = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) $$
Esto se ilustra en la siguiente imagen, donde se utiliza la distribución normal como núcleo $K$ y diferentes valores para el ancho de banda $h$ se utilizan para estimar la distribución teniendo en cuenta los siete puntos de datos (marcados por las líneas de colores en la parte superior de los gráficos). Las densidades coloreadas en los gráficos son núcleos centrados en $x_i$ puntos. Obsérvese que $h$ es un relativa su valor se elige siempre en función de sus datos y el mismo valor de $h$ puede no dar resultados similares para diferentes conjuntos de datos.
Kernel $K$ puede considerarse como una función de densidad de probabilidad, y debe integrarse en la unidad. También debe ser simétrica, de modo que $K(x) = K(-x)$ y, lo que sigue, centrado en cero. Artículo de la Wikipedia sobre los granos enumera muchos núcleos populares, como el gaussiano (distribución normal), el de Epanechnikov, el rectangular (distribución uniforme), etc. Básicamente, cualquier distribución que cumpla esos requisitos puede utilizarse como núcleo.
Obviamente, la estimación final dependerá de la elección del núcleo (pero no tanto) y del parámetro de ancho de banda $h$ . El siguiente hilo ¿Cómo interpretar el valor del ancho de banda en una estimación de la densidad del núcleo? describe con más detalle el uso de los parámetros de ancho de banda.
Diciendo esto en lenguaje llano, lo que se asume aquí es que los puntos observados $x_i$ son sólo una muestra y siguen alguna distribución $f$ que hay que estimar. Dado que la distribución es continua, suponemos que existe una densidad desconocida pero no nula alrededor de la vecindad cercana de $x_i$ puntos (la vecindad está definida por el parámetro $h$ ) y utilizamos los núcleos $K$ para dar cuenta de ello. Cuantos más puntos haya en algún barrio, más densidad se acumulará alrededor de esta región y, por tanto, mayor será la densidad global de $\hat{f_h}$ . La función resultante $\hat{f_h}$ se puede evaluar ahora para cualquier punto $x$ (sin subíndice) para obtener la estimación de la densidad de la misma, así se obtiene la función $\hat{f_h}(x)$ que es una aproximación de la función de densidad desconocida $f(x)$ .
Lo bueno de las densidades del kernel es que, no como los histogramas, son funciones continuas y que ellas mismas son densidades de probabilidad válidas ya que son una mezcla de densidades de probabilidad válidas. En muchos casos, esto es lo más parecido a una aproximación a $f$ .
La diferencia entre la densidad del núcleo y otras densidades, como la distribución normal, es que las densidades "habituales" son funciones matemáticas, mientras que la densidad del núcleo es una aproximación de la verdadera densidad estimada utilizando sus datos, por lo que no son distribuciones "independientes".
Le recomiendo los dos buenos libros de introducción a este tema de Silverman (1986) y Wand y Jones (1995).
Silverman, B.W. (1986). Density estimation for statistics and data analysis. CRC/Chapman & Hall.
Wand, M.P y Jones, M.C. (1995). Kernel Smoothing. London: Chapman & Hall/CRC.