19 votos

Si la variable del kernel anchos a menudo son buenos para el núcleo de regresión, ¿por qué son generalmente no es bueno para la estimación de densidad de kernel?

Esta pregunta se le pide por la discusión en otros lugares.

Variable núcleos se utilizan a menudo en locales de regresión. Por ejemplo, el loess es ampliamente utilizado y funciona bien como una regresión más suave, y se basa en un núcleo de ancho variable que se adapta a los datos de dispersión.

Por otro lado, la variable de granos son generalmente cree que conducen a buenos estimadores en la estimación de densidad de kernel (ver Terrell y Scott, 1992).

Hay una razón intuitiva por qué iba a funcionar bien para la regresión, pero no para la estimación de densidad?

2voto

MattSayar Puntos 723

Parece ser que hay dos diferentes preguntas aquí, que voy a tratar de dividir:

1) ¿cómo es KS, kernel smoothing, diferentes de las de KDE, estimación de densidad de kernel ? Bueno, decir que tengo un estimador / suave / interpolador

est( xi, fi -> gridj, estj )

y también conozco la "real" densityf() en la xi. A continuación, se ejecuta est( x, densityf ) debe dar una estimación de densityf(): KDE. Bien puede ser que KSs y KDEs se evalúan de forma diferente — diferentes suavidad criterios, diferentes normas — pero no veo una diferencia fundamental. Lo que me estoy perdiendo ?

2) ¿Cómo la dimensión afectar a la estimación o suavizado, intuitivly? He aquí un juguete ejemplo, sólo para ayudar a la intuición. Considere la posibilidad de un cuadro de N=10000 puntos en una cuadrícula uniforme, y una ventana, una línea o un cuadrado o un cubo, de W=64 puntos dentro de ella:

                1d          2d          3d          4d
---------------------------------------------------------------
data            10000       100x100     22x22x22    10x10x10x10
side            10000       100         22          10
window          64          8x8         4x4x4       2.8^4
side ratio      .64 %       8 %         19 %        28 %
dist to win     5000        47          13          7

Aquí secundarios "ratio" es la ventana del lado / lado de la caja, y "dist para ganar" es una estimación aproximada de la distancia media de un punto al azar en el cuadro de a una al azar colocado por la ventana.

¿Tienen algún sentido ? (Una imagen o un applet realmente ayuda: ¿alguien ?)

La idea es que un tamaño fijo dentro de una ventana de tamaño fijo de caja tiene muy diferentes cercanía con el resto de la caja, en 1d 2d 3d 4d. Este es el uniforme de la cuadrícula; tal vez la fuerte dependencia de la dimensión lleva a otras distribuciones, tal vez no. De todos modos, se ve como un fuerte efecto general, un aspecto de la maldición de la dimensionalidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X