105 votos

Problemas para los parámetros de la regresión en descenso gradiente forma cerrada vs

En Andrew Ng, de la máquina de aprendizaje del curso, se presenta la regresión lineal y regresión logística, y muestra cómo ajustar los parámetros del modelo utilizando el gradiente de la pendiente y el método de Newton.

Sé gradiente de la pendiente puede ser útil en algunas aplicaciones de aprendizaje de máquina (por ejemplo, backpropogation), pero en el caso más general es que no hay ninguna razón por qué usted no resolver para los parámetros en forma cerrada, es decir, tomando la derivada de la función de costo y de problemas a través de Cálculo?

¿Cuál es la ventaja de utilizar un algoritmo iterativo como el gradiente de la pendiente a través de una forma cerrada de la solución en general, cuando se dispone de uno?

123voto

Brian Borchers Puntos 2546

A menos que la forma cerrada de la solución es extremadamente caro para calcular, por lo general, es el camino a seguir cuando está disponible. Sin embargo,

  1. Para la mayoría de regresión no lineal de los problemas no es la forma cerrada de la solución.

  2. Incluso en la regresión lineal (uno de los pocos casos en los cuales la forma cerrada de la solución está disponible), puede ser poco práctico para el uso de la fórmula. El siguiente ejemplo muestra una forma en que esto puede suceder.

Para la regresión lineal sobre un modelo de la forma $y=X\beta$ donde $X$ es una matriz con una columna completa en la clasificación, la solución de mínimos cuadrados,

$\hat{\beta} = \arg \min \| X \beta -y \|_{2}$

está dada por

$\hat{\beta}=(X^{T}X)^{-1}X^{T}y$

Ahora, imagina que $X$ es muy grande pero la matriz dispersa. por ejemplo, $X$ podría tener de 100.000 columnas y 1.000.000 de filas, pero sólo el 0,001% de las entradas en $X$ son cero. Hay especializados estructuras de datos para almacenar sólo el cero entradas de tales matrices dispersas.

También imagino que estamos de mala suerte, y $X^{T}X$ es bastante una matriz densa con un porcentaje mucho mayor de cero entradas. Almacenamiento de una densa por 100,000 100,000 elemento $X^{T}X$ matriz sería necesario, entonces, $1 \times 10^{10}$ números de punto flotante (en 8 bytes por número, esto viene a 80 gigabytes.) Esto sería poco práctico para almacenar en nada, pero de un superordenador. Además, la inversa de esta matriz (o más comúnmente un factor de Cholesky) también tienden a tener principalmente distinto de cero entradas.

Sin embargo, hay métodos iterativos para la solución de los mínimos cuadrados problema que no requieren más espacio de almacenamiento que $X$, $y$, y $\hat{\beta}$ y nunca explícitamente forman la matriz producto $X^{T}X$.

En esta situación, el uso de un método iterativo es mucho más eficiente computacionalmente que el uso de la forma cerrada de la solución del problema de mínimos cuadrados.

Este ejemplo puede parecer absurdamente grande. Sin embargo, disperso grande de mínimos cuadrados de los problemas de este tamaño son rutinariamente resuelto por métodos iterativos en los equipos de escritorio en la tomografía sísmica de investigación.

1voto

M_1 Puntos 313

Se han realizado varias publicaciones en ML y de regresión. ML no es necesario para la solución de mínimos cuadrados ordinarios (MCO), ya que consiste en un sistema de ecuaciones lineales. El hecho de que todo es lineal significa que sólo una operación de paso es necesario para resolver para los coeficientes. La regresión logística se basa en la maximización de la función de probabilidad $L=\prod_i{p_i}$, que puede resolverse con el uso de Newton-Raphson, o de otro ML de gradiente de ascenso métodos, metaheuristics (escalada, algoritmos genéticos, inteligencia de enjambre, optimización de colonia de hormigas, etc).

Con respecto a la parsimonia, el uso de ML para la OPERACIÓN iba a ser un desperdicio debido a un proceso iterativo de aprendizaje es ineficiente para resolver OLS.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X