20 votos

La covarianza de las funciones o granos - ¿qué son exactamente?

Soy bastante nuevo en el campo de Gauss procesos y cómo se aplican en el aprendizaje de máquina. Sigo leyendo y escuchando sobre la covarianza de las funciones de ser el principal atractivo de estos métodos. Así podría alguien explicar de forma intuitiva lo que está sucediendo en estos covarianza funciones?

De lo contrario, si usted podría señalar a un determinado tutorial o documento explicando.

18voto

Fire Crow Puntos 2273

En suelto términos, un kernel o de la función de covarianza $k(x, x^\prime)$ especifica la relación estadística entre dos puntos de $x, x^\prime$ en su espacio de entrada; es decir, cómo notablemente un cambio en el valor de la Gaussiana Proceso (GP) a $x$ se correlaciona con un cambio en el GP de a $x^\prime$. En cierto sentido, se puede pensar de $k(\cdot, \cdot)$ como la definición de una similitud entre las entradas (*).

Típico de los núcleos posible que sólo dependen de la distancia Euclídea (o transformaciones lineales de los mismos) entre los puntos, pero la diversión comienza cuando te das cuenta de que puedes hacer mucho, mucho más.

Como David Duvenaud pone:

Los núcleos pueden ser definidas sobre todos los tipos de estructuras de datos: Texto, imágenes, matrices, e incluso de los núcleos. Viene con un kernel en un nuevo el tipo de datos que se utilizan para ser una manera fácil de obtener un PIN de papel.

Para una visión general fácil de kernels para el GPs, yo recomendaría su Núcleo libro de cocina y las referencias allí contenidas.


(*) Como @Dikran Marsupial notas, ten en cuenta que el recíproco no es cierto, no todas las métricas de similitud son válidos núcleos (ver su respuesta).

13voto

John Richardson Puntos 1197

Como @lacerbi sugiere un núcleo (o función de covarianza de la función en un Proceso Gaussiano) es esencialmente una métrica de similitud, por lo que el valor del núcleo es alta si los dos vectores de entrada son considerados "similares" de acuerdo a las necesidades de la aplicación y menos si son diferentes. Sin embargo no todas las métricas de similitud son válidas las funciones de núcleo. Para ser válido el kernel, la función debe ser interpretable como calcular un producto interior en algunos transformado el espacio de características, es decir, $K(x, x') = \phi(x)\cdot\phi(x')$ donde $\phi(\cdot)$ es una función que se asigna a la entrada de vectores en el espacio de características.

Entonces, ¿por qué debe el kernel ser interpretable como un producto interior en algunas disponen de espacio? La razón es que es mucho más fácil diseñar teórica de los límites de la generalización de rendimiento para los modelos lineales (como la regresión logística), que es para modelos no lineales (como una red neuronal). La mayoría de los modelos lineales puede escribirse de manera que los vectores de entrada sólo aparecen en el formulario de interior de los productos. Esto significa que podemos construir un modelo no lineal mediante la construcción de un modelo lineal en el núcleo de espacio de características. Este es un fijo de la transformación de los datos, por lo que todos los teóricos de rendimiento de los límites para el modelo lineal se aplica automáticamente a la nueva kernel modelo no lineal*.

Un punto importante que es difícil de entender al principio, es que tendemos a no pensar en un espacio de características que sería bueno para nuestra aplicación en particular y, a continuación, el diseño de un núcleo dando lugar a que el espacio de características. En general nos encontramos con una buena métrica de similitud y, a continuación, ver si es un kernel (la prueba es sencilla, si cualquier matriz de pares de las evaluaciones de que el núcleo de la función en los puntos en posición general es positiva definida, entonces es válido kernel).

$^*$ , Por supuesto, si usted ajusta los parámetros del kernel para optimizar la generalización de rendimiento, por ejemplo, minimizando la validación cruzada de error, entonces ya no es un fijo de transformación, pero que se ha aprendido a partir de los datos y gran parte de la hermosa teoría ha sido invalidado. Así, en la práctica, mientras que el diseño de métodos del núcleo tiene un montón de tranquilizar a la teoría detrás de ellos, los límites a sí mismos generalmente no se aplican a aplicaciones prácticas -, pero aún es tranquilizador como hay sonido principios que sustentan el modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X