10 votos

Ancho de banda del núcleo en la estimación de la densidad del núcleo

Estoy haciendo una estimación de densidad Kernel, con un conjunto de puntos ponderados (es decir, cada muestra tiene un peso que no es necesario), en N dimensiones. Además, estas muestras están en un espacio métrico (es decir, podemos definir una distancia entre ellas) pero nada más. Por ejemplo, no podemos determinar la media de los puntos de la muestra, ni la desviación estándar, ni escalar una variable en comparación con otra. El Kernel sólo se ve afectado por esta distancia, y el peso de cada muestra:

$$f(x) = \frac{1.}{\sum weights_i} * \sum\frac{weight_i}{h} * Kernel(\frac{distance(x,x_i)}{h})$$

En este contexto, estoy tratando de encontrar una estimación robusta para el ancho de banda del núcleo $h$ que puede variar espacialmente y que, preferiblemente, proporciona una reconstrucción exacta en el conjunto de datos de entrenamiento $x_i$ . Si fuera necesario, podríamos suponer que la función es relativamente suave.

He intentado utilizar la distancia al primer o segundo vecino más cercano pero da resultados bastante malos. Probé con la optimización leave-one-out, pero tengo dificultades para encontrar una buena medida para optimizar en este contexto en N-d, por lo que encuentra estimaciones muy malas, especialmente para las propias muestras de entrenamiento. No puedo utilizar la estimación codiciosa basada en la suposición normal, ya que no puedo calcular la desviación estándar. Encontré referencias usando matrices de covarianza para obtener núcleos anisotrópicos, pero de nuevo, no se mantendría en este espacio...

¿Alguien tiene una idea o una referencia?

0 votos

Si puedes medir la distancia, entonces puedes medir una media. ¿Es eso cierto? Podría decir "estoy usando la distancia del coseno para las palabras", por lo que una "palabra media no tiene realmente mucho significado", pero no veo por qué no podría seguir calculándose. Podrías decir que estás en un espacio ordinal, por lo que la media no tiene valor continuo. ¿Por qué la media es indefinible?

3voto

Akira Puntos 1061

Un lugar para empezar sería Silverman's estimador del vecino más cercano pero para añadir los pesos de alguna manera. (El método del vecino más cercano puede formularse evidentemente en términos de distancias. Creo que tu primer y segundo método del vecino más cercano son versiones del método del vecino más cercano, pero sin una función de núcleo, y con un valor pequeño de $k$ .

2voto

moobaa Puntos 634

En Matlab File Exchange, hay una función kde que proporciona el ancho de banda óptimo con la suposición de que se utiliza un núcleo gaussiano: Estimador de la densidad del núcleo .

Aunque no utilices Matlab, puedes analizar este código para conocer su método de cálculo del ancho de banda óptimo. Esta es una función muy valorada en el intercambio de archivos y la he utilizado muchas veces.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X