10 votos

Ventaja de la estimación de la densidad del núcleo sobre la estimación paramétrica

¿Hay alguna razón en particular por la que elegirás la estimación de la densidad del núcleo en lugar de la estimación paramétrica? Estaba aprendiendo a ajustar la distribución a mis datos. Esta pregunta me llegó.

El tamaño de mis datos es relativamente grande, con 7500 puntos de datos. Reclamaciones automáticas. Mi objetivo es ajustarlo a una distribución (no paramétrica o paramétrica). Y luego usarlo para simular datos de auto-reclamaciones, y calcular el VaR o TVaR.

Utilicé el registro para transformar los datos y hacerlos relativamente normales. Ajusté muchas distribuciones incluyendo la normal, lognormal, gamma, t, etc... Utilicé AIC y logaritmo para identificar el mejor ajuste. Pero ninguno de estos ajustes pasó la prueba de KS (valor p extremadamente pequeño, con e-10).

Por eso pregunté en qué situación debería cambiar a KDE.

9voto

Lev Puntos 2212

La pregunta de respuesta es "¿por qué modelas tus datos como una muestra de una distribución?" Si quieres aprender algo sobre el fenómeno que hay detrás de tus datos, como cuando se mejora una teoría científica o se prueba una hipótesis científica, el uso de un estimador de núcleo no paramétrico no te dice mucho más que los propios datos. Mientras que un modelo parametrizado puede decir mucho más claramente a) si los datos y el modelo coinciden o no y b) cuáles son los valores probables de los parámetros. Por lo tanto, dependiendo de sus objetivos, se determina el enfoque que se debe preferir.

6voto

mat_geek Puntos 1367

Podría ser. La estimación de la densidad del núcleo es un enfoque no paramétrico. La estimación paramétrica requiere que se asuma una familia paramétrica de distribuciones basada en unos pocos parámetros. Si se tiene una base para creer que el modelo es aproximadamente correcto, es ventajoso hacer una inferencia paramétrica. Por otra parte, es posible que los datos no se ajusten bien a ningún miembro de la familia. En ese caso es mejor utilizar la estimación de la densidad del núcleo porque construirá una densidad que se ajuste razonablemente a los datos. No requiere ninguna suposición sobre las familias paramétricas.

Esta descripción puede ser ligeramente simplificada para mayor claridad. Permítanme dar un ejemplo específico para concretarlo. Supongamos que la familia paramétrica es la distribución normal que se define por los dos parámetros desconocidos la media y la varianza. Cada distribución de la familia es simétrica y en forma de campana con la media igual a la mediana y la moda. Ahora bien, su muestra no parece ser simétrica y la media de la muestra es muy diferente de la mediana de la muestra. Entonces tienes pruebas para pensar que tu suposición es errónea. Así que o bien necesitas encontrar una transformación que convierta los datos para que encajen en una bonita familia paramétrica (posiblemente la normal) o encontrar una familia paramétrica alternativa. Si estos enfoques paramétricos alternativos no parecen funcionar, el enfoque de la densidad del núcleo es una alternativa que funcionará. Hay algunos problemas (1) la forma del núcleo, (2) el ancho de banda del núcleo que determina el nivel de suavidad y (3) posiblemente un tamaño de muestra más grande que el que podría necesitar para una familia paramétrica. El tema 1 ha demostrado en la literatura que es prácticamente sin importancia. El número 2 es importante. La cuestión 3 depende de cuán grande sea la muestra que se pueda permitir recoger. Aunque estas cuestiones existen junto con la suposición implícita de que la distribución tiene una densidad, estas suposiciones pueden ser más fáciles de aceptar que las suposiciones paramétricas restrictivas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X