Durante un tiempo, parecía que Granos de pescado pueden llegar a ser populares, ya que parecen ser una forma de construir núcleos a partir de modelos probabilísticos. Sin embargo, rara vez los he visto en la práctica, y sé de buena tinta que no suelen funcionar muy bien. Se basan en el cálculo de la Información sobre los pescadores - citando a Wikipedia:
la información de Fisher es el negativo de la expectativa de la segunda derivada con respecto al logaritmo natural de f. La información puede verse como una medida de la "curvatura" de la curva de soporte cerca de la estimación de máxima probabilidad (MLE) de .
Por lo que veo, esto significa que la función kernel entre dos puntos es entonces la distancia a lo largo de esta superficie curva, ¿estoy en lo cierto?
Sin embargo, esto podría ser problemático para su uso en los métodos del núcleo, ya que
- El MLE puede ser una estimación muy mala para un modelo determinado
- La curvatura de la curva de soporte alrededor del MLE podría no servir para discriminar entre instancias, por ejemplo, si la superficie de verosimilitud fuera muy puntiaguda
- Esto parece tirar mucha información sobre el modelo
Si este es el caso, ¿existen formas más modernas de construir núcleos a partir de métodos probabilísticos? Por ejemplo, ¿podríamos utilizar un conjunto de retención para utilizar las estimaciones MAP de la misma manera? ¿Qué otras nociones de distancia o similitud de los métodos probabilísticos podrían funcionar para construir una función kernel (válida)?