11 votos

Más allá de los granos de Fisher

Durante un tiempo, parecía que Granos de pescado pueden llegar a ser populares, ya que parecen ser una forma de construir núcleos a partir de modelos probabilísticos. Sin embargo, rara vez los he visto en la práctica, y sé de buena tinta que no suelen funcionar muy bien. Se basan en el cálculo de la Información sobre los pescadores - citando a Wikipedia:

la información de Fisher es el negativo de la expectativa de la segunda derivada con respecto al logaritmo natural de f. La información puede verse como una medida de la "curvatura" de la curva de soporte cerca de la estimación de máxima probabilidad (MLE) de .

Por lo que veo, esto significa que la función kernel entre dos puntos es entonces la distancia a lo largo de esta superficie curva, ¿estoy en lo cierto?

Sin embargo, esto podría ser problemático para su uso en los métodos del núcleo, ya que

  1. El MLE puede ser una estimación muy mala para un modelo determinado
  2. La curvatura de la curva de soporte alrededor del MLE podría no servir para discriminar entre instancias, por ejemplo, si la superficie de verosimilitud fuera muy puntiaguda
  3. Esto parece tirar mucha información sobre el modelo

Si este es el caso, ¿existen formas más modernas de construir núcleos a partir de métodos probabilísticos? Por ejemplo, ¿podríamos utilizar un conjunto de retención para utilizar las estimaciones MAP de la misma manera? ¿Qué otras nociones de distancia o similitud de los métodos probabilísticos podrían funcionar para construir una función kernel (válida)?

10voto

Dan Appleyard Puntos 223

Tienes razón en las tres cuestiones que planteas, y tu interpretación es exactamente correcta.

La gente ha buscado otras direcciones para construir núcleos a partir de modelos probabilísticos:

  • Moreno et al. proponen Kullback-Leibler aunque cuando esto satisface las condiciones de Mercer no se entendía bien cuando analicé este problema cuando lo leí.

  • Jebara et al. proponen el producto interior en el espacio de las distribuciones. Este artículo se parece mucho a lo que buscas: puedes descargarlo aquí .

Los leí hace tiempo (2008), no estoy seguro de cómo ha evolucionado esa zona en los últimos años.

También hay formas no probabilísticas de hacerlo; la gente de la bioinformática ha buscado tipos de programación dinámica en el espacio de las cadenas, etc. Estas cosas no siempre son PSD y tienen sus propios problemas.

1 votos

jmlr.org/papers/volume10/martins09a/martins09a.pdf desarrolla una teoría de los núcleos relacionados con la divergencia KL que son y no son positivos-definidos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X