Matriz pseudo-inversa para regresión lineal multivariada

Question

Matriz pseudo-inversa para regresión lineal multivariada

Preguntado el 15 de Diciembre, 2020: Cuando se hizo la pregunta
270 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

En el curso de Aprendizaje Automático de Andrew Ng, en la clase 4.6 sobre "Ecuación Normal", dice que para minimizar $J(\theta) = \frac{1}{2m}\sum\limits_{i=1}^{m}({h_{\theta}}(x^{(i)}) - y^{(i)})^2$ , donde $h_{\theta}(x) = \theta_{0} + \theta_{1}x_1 + \theta_{2}x_2 + ... + \theta_{n}x_n$ y resolver para $\theta$ , se debe tomar la matriz de diseño $X$ y calcular la siguiente expresión:

$\theta = (X^{T}X)^{-1}X^{T}y$ ,

donde la matriz de diseño es la matriz de todos los vectores de características $[1, x^{(i)}_{1}, x^{(i)}_{2}, ..., x^{(i)}_{m}]$ como filas. Muestra el código de Octave (Matlab) para calcularlo, como pinv(x'*x)*x'*y.

Sin embargo, hace mucho tiempo, cuando usé Numpy para resolver el mismo problema, simplemente usé np.linalg.pinv(x) @ y. Incluso se menciona en la documentación de pinv de Numpy que pinv resuelve el problema de los mínimos cuadrados para $Ax=b$ , de manera que $\overline{x} = A^{+}b$ .

Entonces, ¿por qué debería calcular $\theta = (X^{T}X)^{-1}X^{T}y$ cuando puedo simplemente calcular $\theta = X^{-1}y$ ? ¿Hay alguna diferencia?

EDICIÓN:

De hecho, es fácil ver que $\theta = (X^{T}X)^{-1}X^{T}y$ es correcto, porque por definición,

,

tal que al multiplicar $X$ por la izquierda por $(X^{T}X)^{-1})X^{T}$ , obtenemos $I$ , lo que significa que es su matriz inversa por la izquierda. La inversa por la izquierda es la matriz que se utiliza para resolver el problema de los mínimos cuadrados, ya que al multiplicar ambos lados por ella desde la izquierda, convierte $X\theta=y$ en $I\theta=(X^TX)^{-1}X^Ty$ , lo que significa que los coeficientes son ,

lo que nuevamente, gracias a la propiedad asociativa de la multiplicación de matrices, se puede escribir como

$X(X^{T}(XX^{T})^{-1}) = I$ ,

Por lo tanto, obtenemos que $(X^{T}(XX^{T})^{-1})$ es la inversa por la derecha de $X$ .

Preguntado el 15 de Diciembre, 2020 por chrylis

Answer 1

1 Respuestas

Answer 2

2voto

Benjamin Dobson Puntos 1

$X^{-1}$ solo tiene sentido para matrices cuadradas. Para problemas de mínimos cuadrados, a menudo tenemos una matriz estrictamente delgada y de rango completo $X$ . Cuando $X$ es cuadrada y de rango completo, entonces puedes usar $\theta = X^{-1}y$ , ya que $(X^TX)^{-1}X^T = X^{-1}$ . Pero cuando $X$ es estrictamente delgada y de rango completo, solo existe la pseudoinversa $(X^TX)^{-1}X^T$ , lo que lleva a la fórmula dada en el enlace.

Respondido el 15 de Diciembre, 2020 por Benjamin Dobson (1 Puntos )

0 votos

He usado pinv de Numpy en matrices que no son cuadradas. ¿Significa que en tales matrices, numpy automáticamente utiliza la fórmula más larga?

Comentado el 15 de Diciembre, 2020 por chrylis

0 votos

Suponiendo que la matriz que tienes es de rango completo y estrecha, entonces sí.

Comentado el 15 de Diciembre, 2020 por Benjamin Dobson

0 votos

¿Cuál es el significado de "skinny"? ¿Y si no es de rango completo? Supongamos que tengo 100 muestras y 10 características, por lo que la dimensión de mi matriz es 100x10.

Comentado el 15 de Diciembre, 2020 por chrylis

Mostrar 2 comentarios más

Matriz pseudo-inversa para regresión lineal multivariada

EDICIÓN:

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Matriz pseudo-inversa para regresión lineal multivariada

EDICIÓN:

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: