Yo era capaz de llegar a Brandyn Webb (aka S. Funk) y aclaró que algunas de mis preguntas. Las ideas que condujeron a SGD de enfermedad vesicular porcina se puede encontrar en este artículo
http://courses.cs.washington.edu/courses/cse528/09sp/sanger_pca_nn.pdf
donde Sanger, basándose en el trabajo de Oja
http://users.ics.aalto.fi/oja/Oja1982.pdf
habla de encontrar N superior vectores propios a través de un método llamado Generalizado de Hebb Algoritmo (GHA), utilizando una red neuronal con una probabilidad de 1. Es decir, la formación de esta red en particular termina haciendo de la PCA (muy fresco).
Webb fue la investigación de NNs en el tiempo (mucho antes de que Netflix);
Yo estaba buscando en un acuerdo de reciprocidad entre las neuronas en la corteza
y había elaborado un implícita algoritmo de aprendizaje que me llamó la atención como
algo que podría tener una solución analítica. [..] Mi original
incremental formulación (no demasiado) desde un par de años antes de que
que era, en lugar de un gradiente, sólo una ampliación de la matriz
multiplicación basado en la matriz en cuestión, siendo la suma de exterior
los productos de la muestra individual de los vectores, y, por lo tanto, exactamente el
mismo como un numéricos comunes enfoque a la búsqueda de vectores propios (sólo mantener
el cuadrado de la matriz hasta que se asienta a la cantidad de copias de su primer
autovector [es decir, el método de la potencia]; a continuación, repita con la que uno
eliminado, y así sucesivamente) -- por lo suficientemente pequeño de la tasa de aprendizaje, de todos modos...
El resultado es prácticamente el mismo que el gradiente de derivación; es
mi suposición de que tiene las mismas propiedades.
Más tarde Gorrell y Webb se dio cuenta de la formulación parecía que era la solución de una enfermedad vesicular porcina problema (de nuevo antes de que Netflix Prize). Webb comenzó a usar el SGD derivación para Netflix, mencionó que "se fue directo para la el método del gradiente en el fragor del momento, porque fue más rápido para deducir que en una servilleta de encontrar mi papel viejo".
La pregunta puede ser una pregunta "¿cuánto SVD es Funk SVD?". Algunos en la Red llamada "Funk aproximación heurística de enfermedad vesicular porcina" y "la falta de formulario de datos es un modelo de factor no de enfermedad vesicular porcina". Otro dice: "en el caso de una parte observada de la matriz [..] el factorizados solución U V ís no verdaderamente un SVD – no hay ninguna restricción de que las matrices U y V sean ortogonales".
Webb no está de acuerdo, para los dos primeros
Me gustaría personalmente, probablemente, sólo tiene que llamar incremental aproximada de la enfermedad vesicular porcina.
Modelo de Factor, es una categoría amplia; es útil para retener la referencia a
la conexión a la enfermedad vesicular porcina, incluso si ya no está de enfermedad vesicular porcina, ya que ayuda (abajo
la carretera) para entender algunas de las propiedades.
para el último,
Cualquier regularización, ya sea implícita o explícita (implícita a través de no
el sobre-entrenamiento), probablemente viola ortogonalidad, pero si el subyacente
el algoritmo se ejecuta a la convergencia con suficientemente baja tasa de aprendizaje y
no regularización, que se depositan en el ortogonal de matrices. Mira a
Sanger GHA prueba de esto, pero es trivialmente fácil de comprender
revertir la inhibición de la eliminación de las proyecciones de los vectores existentes de la
conjunto de datos que significa que el gradiente residual necesariamente se desliza dentro de un
el subespacio que carece de cualquier tipo de proyección en el otro de los vectores (es decir,
ortogonal).
Una vez que se agrega la regularización, o de cualquiera de los no-linearities que el
enfoque incremental le permite insertar, entonces todas las apuestas
están apagados. Sin embargo, suponiendo que el principal pendiente es todavía el
la mayoría influencia, se puede garantizar un grado de ortogonalidad,
ergo la "aproximado de enfermedad vesicular porcina" representación.
En general, podemos decir que hay conexiones entre GHA, el llamado "proceso iterativo método de la potencia", el gradiente de la solución y la enfermedad vesicular porcina; es por esto, quizás, Webb podría profundizar en una solución sin que se asuste por la no convexidad del problema.
No importa qué ruta fue tomada durante la invención de este método, sin embargo, podemos observar en la función de error para las recomendaciones, y a través de sus gradientes uno puede ver SGD puede minimizar, lo cual es demostrado por pruebas empíricas. La función de error es no convexa, sin embargo, como Bottou y LeCun sugieren la ausencia de teoría, no debería dejar de nosotros a través de un método. Además, la gente comenzó a mirar estocástico enfoques, sus teóricos garantiza mucho más cerca ahora, como se ve aquí
http://arxiv.org/pdf/1308.3509
El artículo también habla sobre el método de la potencia y SGD conexión por CIERTO.
Nota: el método de la potencia se utiliza para encontrar una sola eval/evec, que es evec para la mayor eval, sin embargo puede ser utilizado para encontrar a todos los demás evecs por "quitar" la newlyfound evec de la matriz de Un (a través de un proceso llamado deflación), y volver a ejecutar el método de la potencia en Un nuevo que se encuentra en el segundo vector propio, y así sucesivamente.
http://www.maths.qmul.ac.uk/~wj/MTH5110/notas/MAS235_lecturenotes1.pdf
http://heim.ifi.uio.no/~tom/powerandqrslides.pdf
Aquí está una implementación de SGD de enfermedad vesicular porcina para las recomendaciones en Python (docs no en inglés).
http://github.com/burakbayramli/classnotes/tree/master/app-math-tr/svdapprox