22 votos

Descenso de gradiente en trabajos no-convexo de la función pero, ¿cómo?

Para Netflix Premio de la competencia de las recomendaciones sobre el método que se utiliza un punto de vista estocástico de gradiente de la pendiente, popularizado por Simon Funk , que la utilizan para resolver un SVD aproximadamente. La matemática es la mejor explicado aquí en la página 152. Una clasificación es predicho por

$$ \hat{r}_{ui} = \mu + b_i + b_u + q_i^Tp_u $$

Regularización de la plaza de error es

$$ \min_{b*,q*,p*} \sum_{u,i} (r_{ui} - \mu - b_i - b_u - q_i^Tp_u)^2 + \lambda_4 (b_i^2 + b_u^2 + ||q_i||^2 + ||p_u||^2) $$

Si las derivadas parciales son tomadas de acuerdo a cada variable, y a través de una constante para la actualización de las reglas que han de ecuaciones como

$$ b_u \leftarrow b_u + \gamma (e_{ui} - \lambda_4 \cdot b_u) $$

[El resto es omitido]. Mi pregunta es esta, papel aquí los estados plaza de la función de error de arriba no convexa porque de $q_i^Tp_u$ y ambas variables aquí son desconocidos que, por supuesto, es la correcta. Entonces, ¿cómo garantizamos estocástico de gradiente de la pendiente esquema descrito en todos los documentos se encuentran en un mínimo global? Leí en alguna parte SGD puede ser usado para resolver no de las funciones convexas, me gustaría saber acerca de algunos detalles sobre cómo. SGD SVD método descrito en los enlaces funciona bien en la práctica.

También, los mínimos cuadrados alternantes se puede aplicar para resolver el SVD problema descrito anteriormente, de acuerdo a IEEE Koren papel. Este método se alterna entre la celebración de una o de la otra variable constante creando problemas convexos en el proceso. Me pregunto si SGD, mientras que pasa a través de las dimensiones, los puntos de datos, uno por uno, también, en cierto modo, crea convexo sub-problemas, ya que procede.

Tal vez la respuesta es simplemente esta presentación por LeCun, gradiente estocástico en la no-convexo, las funciones no tienen teórico garantías, pero esto no significa que no se debe utilizar. "Cuando la Evidencia Empírica sugiere un hecho para el cual no tenemos teórico de garantías, sólo significa que la teoría es insuficiente".

14voto

BB_ML Puntos 3432

Yo era capaz de llegar a Brandyn Webb (aka S. Funk) y aclaró que algunas de mis preguntas. Las ideas que condujeron a SGD de enfermedad vesicular porcina se puede encontrar en este artículo

http://courses.cs.washington.edu/courses/cse528/09sp/sanger_pca_nn.pdf

donde Sanger, basándose en el trabajo de Oja

http://users.ics.aalto.fi/oja/Oja1982.pdf

habla de encontrar N superior vectores propios a través de un método llamado Generalizado de Hebb Algoritmo (GHA), utilizando una red neuronal con una probabilidad de 1. Es decir, la formación de esta red en particular termina haciendo de la PCA (muy fresco).

Webb fue la investigación de NNs en el tiempo (mucho antes de que Netflix);

Yo estaba buscando en un acuerdo de reciprocidad entre las neuronas en la corteza y había elaborado un implícita algoritmo de aprendizaje que me llamó la atención como algo que podría tener una solución analítica. [..] Mi original incremental formulación (no demasiado) desde un par de años antes de que que era, en lugar de un gradiente, sólo una ampliación de la matriz multiplicación basado en la matriz en cuestión, siendo la suma de exterior los productos de la muestra individual de los vectores, y, por lo tanto, exactamente el mismo como un numéricos comunes enfoque a la búsqueda de vectores propios (sólo mantener el cuadrado de la matriz hasta que se asienta a la cantidad de copias de su primer autovector [es decir, el método de la potencia]; a continuación, repita con la que uno eliminado, y así sucesivamente) -- por lo suficientemente pequeño de la tasa de aprendizaje, de todos modos... El resultado es prácticamente el mismo que el gradiente de derivación; es mi suposición de que tiene las mismas propiedades.

Más tarde Gorrell y Webb se dio cuenta de la formulación parecía que era la solución de una enfermedad vesicular porcina problema (de nuevo antes de que Netflix Prize). Webb comenzó a usar el SGD derivación para Netflix, mencionó que "se fue directo para la el método del gradiente en el fragor del momento, porque fue más rápido para deducir que en una servilleta de encontrar mi papel viejo".

La pregunta puede ser una pregunta "¿cuánto SVD es Funk SVD?". Algunos en la Red llamada "Funk aproximación heurística de enfermedad vesicular porcina" y "la falta de formulario de datos es un modelo de factor no de enfermedad vesicular porcina". Otro dice: "en el caso de una parte observada de la matriz [..] el factorizados solución U V ís no verdaderamente un SVD – no hay ninguna restricción de que las matrices U y V sean ortogonales".

Webb no está de acuerdo, para los dos primeros

Me gustaría personalmente, probablemente, sólo tiene que llamar incremental aproximada de la enfermedad vesicular porcina. Modelo de Factor, es una categoría amplia; es útil para retener la referencia a la conexión a la enfermedad vesicular porcina, incluso si ya no está de enfermedad vesicular porcina, ya que ayuda (abajo la carretera) para entender algunas de las propiedades.

para el último,

Cualquier regularización, ya sea implícita o explícita (implícita a través de no el sobre-entrenamiento), probablemente viola ortogonalidad, pero si el subyacente el algoritmo se ejecuta a la convergencia con suficientemente baja tasa de aprendizaje y no regularización, que se depositan en el ortogonal de matrices. Mira a Sanger GHA prueba de esto, pero es trivialmente fácil de comprender revertir la inhibición de la eliminación de las proyecciones de los vectores existentes de la conjunto de datos que significa que el gradiente residual necesariamente se desliza dentro de un el subespacio que carece de cualquier tipo de proyección en el otro de los vectores (es decir, ortogonal).

Una vez que se agrega la regularización, o de cualquiera de los no-linearities que el enfoque incremental le permite insertar, entonces todas las apuestas están apagados. Sin embargo, suponiendo que el principal pendiente es todavía el la mayoría influencia, se puede garantizar un grado de ortogonalidad, ergo la "aproximado de enfermedad vesicular porcina" representación.

En general, podemos decir que hay conexiones entre GHA, el llamado "proceso iterativo método de la potencia", el gradiente de la solución y la enfermedad vesicular porcina; es por esto, quizás, Webb podría profundizar en una solución sin que se asuste por la no convexidad del problema.

No importa qué ruta fue tomada durante la invención de este método, sin embargo, podemos observar en la función de error para las recomendaciones, y a través de sus gradientes uno puede ver SGD puede minimizar, lo cual es demostrado por pruebas empíricas. La función de error es no convexa, sin embargo, como Bottou y LeCun sugieren la ausencia de teoría, no debería dejar de nosotros a través de un método. Además, la gente comenzó a mirar estocástico enfoques, sus teóricos garantiza mucho más cerca ahora, como se ve aquí

http://arxiv.org/pdf/1308.3509

El artículo también habla sobre el método de la potencia y SGD conexión por CIERTO.

Nota: el método de la potencia se utiliza para encontrar una sola eval/evec, que es evec para la mayor eval, sin embargo puede ser utilizado para encontrar a todos los demás evecs por "quitar" la newlyfound evec de la matriz de Un (a través de un proceso llamado deflación), y volver a ejecutar el método de la potencia en Un nuevo que se encuentra en el segundo vector propio, y así sucesivamente.

http://www.maths.qmul.ac.uk/~wj/MTH5110/notas/MAS235_lecturenotes1.pdf

http://heim.ifi.uio.no/~tom/powerandqrslides.pdf

Aquí está una implementación de SGD de enfermedad vesicular porcina para las recomendaciones en Python (docs no en inglés).

http://github.com/burakbayramli/classnotes/tree/master/app-math-tr/svdapprox

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X