13 votos

Estimación de la densidad del núcleo incorporando incertidumbres

Cuando se visualizan datos unidimensionales, es habitual utilizar la técnica de Estimación de la Densidad del Núcleo para tener en cuenta los anchos de bandeja mal elegidos.

Cuando mi conjunto de datos unidimensional tiene incertidumbres de medición, ¿existe una forma estándar de incorporar esta información?

Por ejemplo (y perdonen si mi comprensión es ingenua) KDE convoluciona un perfil gaussiano con las funciones delta de las observaciones. Este núcleo gaussiano se comparte entre cada ubicación, pero la gaussiana $\sigma$ podría variar para ajustarse a las incertidumbres de las mediciones. ¿Existe una forma estándar de realizar esto? Espero reflejar los valores inciertos con núcleos amplios.

He implementado esto de forma sencilla en Python, pero no conozco un método o función estándar para realizarlo. ¿Hay algún problema en esta técnica? He observado que da unos gráficos de aspecto extraño. Por ejemplo

KDE comparison

En este caso, los valores bajos tienen mayores incertidumbres, por lo que tienden a proporcionar núcleos planos amplios, mientras que la KDE pondera en exceso los valores bajos (e inciertos).

0 votos

¿Dices que las curvas rojas son los gaussianos de ancho variable y la curva verde es su suma? (Eso no parece plausible en estos gráficos).

0 votos

¿sabe cuál es el error de medición de cada observación?

0 votos

@whuber las curvas rojas son las gaussianas de ancho variable y las azul curva es su suma. La curva verde es la KDE con una anchura constante, perdón por la confusión

6voto

AdamSane Puntos 1825

Tiene sentido variar las anchuras, pero no necesariamente hacer coincidir la anchura del núcleo con la incertidumbre.

Considere el propósito del ancho de banda cuando se trata de variables aleatorias para las que las observaciones no tienen esencialmente ninguna incertidumbre (es decir, cuando se pueden observar con suficiente exactitud) - incluso así, el kde no utilizará un ancho de banda cero, porque el ancho de banda se relaciona con la variabilidad en la distribución, en lugar de la incertidumbre en la observación (es decir, la variación "entre observaciones", no la incertidumbre "dentro de la observación").

Lo que tienes es esencialmente una fuente adicional de variación (sobre el caso "sin observación-incertidumbre") que es diferente para cada observación.

Así que, como primer paso, diría "¿cuál es el menor ancho de banda que usaría si los datos tuvieran 0 de incertidumbre?" y luego haría un nuevo ancho de banda que sea la raíz cuadrada de la suma de los cuadrados de ese ancho de banda y el $\sigma_i$ que habrías utilizado para la incertidumbre de la observación.

Una forma alternativa de ver el problema sería tratar cada observación como un pequeño kernel (como tú has hecho, que representará dónde podría haber estado la observación), pero convolucionar el kernel habitual (kde-) (normalmente de ancho fijo, pero no tiene por qué serlo) con el kernel de observación-incertidumbre y luego hacer una estimación de densidad combinada. (Creo que en realidad es el mismo resultado que el que sugerí anteriormente).

2voto

Aksakal Puntos 11351

Yo aplicaría el estimador de densidad kernel de ancho de banda variable, por ejemplo Seleccionadores locales de ancho de banda para el kernel de deconvolución estimación de la densidad El artículo trata de construir la ventana adaptativa KDE cuando se conoce la distribución del error de medición. Usted ha declarado que conoce la varianza del error, por lo que este enfoque debería ser aplicable en su caso. Aquí hay otro documento sobre un enfoque similar con una muestra contaminada: SELECCIÓN DEL ANCHO DE BANDA BOOTSTRAP EN LA ESTIMACIÓN DE LA DENSIDAD DEL NÚCLEO ESTIMACIÓN DE LA DENSIDAD DEL NÚCLEO A PARTIR DE UNA MUESTRA CONTAMINADA

0 votos

Su primer enlace me lleva a ms.unimelb.edu.au No es el papel. Creo que te refieres a link.springer.com/article/10.1007/s11222-011-9247-y

0 votos

@AdiRo, he arreglado el enlace roto. No tengo el código

0voto

user29652 Puntos 6

Puede consultar el capítulo 6 de "Estimación de la densidad multivariante: Theory, Practice, and Visualization " de David W. Scott, 1992, Wiley.

Para el caso univariante (pp 130-131), deriva la regla de referencia normal para la selección del ancho de banda: $$h = (4/3)^{1/5}\sigma n^{1/5} \qquad (6.17)$$ donde $\sigma$ es la varianza a lo largo de su dimensión, $n$ es la cantidad de datos y $h$ es el ancho de banda (ha utilizado $\sigma$ en tu pregunta, así que no lo confundas en mi notación).

La notación general de KDE que utiliza es: $$ \hat{f}(x) = \frac{1}{nh} \sum_{i=1}^n K\left(\frac{x-x_i}{h}\right)$$ donde $K(\cdot)$ es la función Kernel.

0voto

twalbaum Puntos 220

En realidad, creo que el método que has propuesto se llama Probability Density Plot (PDP), tal y como se utiliza ampliamente en Geociencia, véase un artículo aquí: https://www.sciencedirect.com/science/article/pii/S0009254112001878

Sin embargo, existen inconvenientes, como se menciona en el documento anterior. Por ejemplo, si los errores medidos son pequeños, habrá picos en el PDF que se obtiene al final. Pero también se puede suavizar el PDP al igual que la forma de KDE, al igual que lo que @Glen_b♦ ha mencionado

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X