Estoy haciendo una estimación de densidad Kernel, con un conjunto de puntos ponderados (es decir, cada muestra tiene un peso que no es necesario), en N dimensiones. Además, estas muestras están en un espacio métrico (es decir, podemos definir una distancia entre ellas) pero nada más. Por ejemplo, no podemos determinar la media de los puntos de la muestra, ni la desviación estándar, ni escalar una variable en comparación con otra. El Kernel sólo se ve afectado por esta distancia, y el peso de cada muestra:
$$f(x) = \frac{1.}{\sum weights_i} * \sum\frac{weight_i}{h} * Kernel(\frac{distance(x,x_i)}{h})$$
En este contexto, estoy tratando de encontrar una estimación robusta para el ancho de banda del núcleo $h$ que puede variar espacialmente y que, preferiblemente, proporciona una reconstrucción exacta en el conjunto de datos de entrenamiento $x_i$ . Si fuera necesario, podríamos suponer que la función es relativamente suave.
He intentado utilizar la distancia al primer o segundo vecino más cercano pero da resultados bastante malos. Probé con la optimización leave-one-out, pero tengo dificultades para encontrar una buena medida para optimizar en este contexto en N-d, por lo que encuentra estimaciones muy malas, especialmente para las propias muestras de entrenamiento. No puedo utilizar la estimación codiciosa basada en la suposición normal, ya que no puedo calcular la desviación estándar. Encontré referencias usando matrices de covarianza para obtener núcleos anisotrópicos, pero de nuevo, no se mantendría en este espacio...
¿Alguien tiene una idea o una referencia?
0 votos
Si puedes medir la distancia, entonces puedes medir una media. ¿Es eso cierto? Podría decir "estoy usando la distancia del coseno para las palabras", por lo que una "palabra media no tiene realmente mucho significado", pero no veo por qué no podría seguir calculándose. Podrías decir que estás en un espacio ordinal, por lo que la media no tiene valor continuo. ¿Por qué la media es indefinible?