Dado un modelo lineal
$$y = X\beta + \epsilon$$
podemos estimar los parámetros de $\hat{\beta}$ el uso de dos diferentes maneras - de mínimos cuadrados ordinarios (OLS) y gradiente de la pendiente (GD). Ambos de ellos se reducen a minimizar el error cuadrático medio (MSE) por encontrar a su mínimo global. La diferencia es que mientras OLS encuentra la solución exacta, GD, de manera iterativa, enfoques, pero nunca puede encontrar la respuesta exacta.
Por OLS hemos conjunto habitual de las estimaciones de los parámetros, en particular la mayoría de error estándar $SE(\hat{\beta})$. Pero en algunos casos OLS no es una opción (por ejemplo, la matriz de datos es demasiado grande), así que tenemos que usar GD.
Estoy tratando de averiguar:
- ¿Tiene sentido en el que todos SE aplican a los parámetros aprendido mediante gradiente de la pendiente?
- Si es así, ¿cómo podemos calcularlo? Hacer otro dependiente cosas como t-estadística y la significación de la prueba de tomar la forma habitual?
- ¿Qué acerca de la estocástico de gradiente de la pendiente (SGD)? Hay alguna esperanza para evaluar sus parámetros?
Para el común de referencia: