La pregunta es muy sencilla: ¿por qué, cuando intentamos ajustar un modelo a nuestros datos, lineal o no lineal, solemos intentar minimizar la suma de los cuadrados de los errores para obtener nuestro estimador del parámetro del modelo? ¿Por qué no elegir otra función objetivo para minimizar? Entiendo que, por razones técnicas, la función cuadrática es más agradable que algunas otras funciones, por ejemplo, la suma de la desviación absoluta. Pero sigue sin ser una respuesta muy convincente. Aparte de esta razón técnica, ¿por qué en particular la gente está a favor de este "tipo euclidiano" de función de distancia? ¿Tiene algún significado o interpretación específica?
La lógica de mi pensamiento es la siguiente:
Cuando se dispone de un conjunto de datos, primero se configura el modelo haciendo una serie de suposiciones funcionales o distribucionales (por ejemplo, alguna condición de momento, pero no toda la distribución). En el modelo, hay algunos parámetros (supongamos que se trata de un modelo paramétrico) y, a continuación, hay que encontrar una forma de estimar sistemáticamente estos parámetros y, con suerte, el estimador tendrá una varianza baja y otras buenas propiedades. Ya sea que minimices la SSE o la LAD o alguna otra función objetivo, creo que son sólo métodos diferentes para obtener un estimador consistente. Siguiendo esta lógica, pensé que la gente utiliza mínimos cuadrados debe ser 1) produce estimador consistente del modelo 2) algo más que no sé.
En econometría, sabemos que en un modelo de regresión lineal, si asumimos que los términos de error tienen 0 media condicionada a los predictores y homocedasticidad y los errores no están correlacionados entre sí, entonces minimizar la suma del error cuadrático nos dará un estimador CONSISTENTE de los parámetros de nuestro modelo y por el teorema de Gauss-Markov, este estimador es AZUL. Así que esto sugeriría que si usted elige para minimizar alguna otra función objetivo que no es el SSE, entonces no hay garantía de que obtendrá un estimador coherente de su parámetro del modelo. ¿Es correcta mi interpretación? Si es correcto, entonces minimizar SSE en lugar de alguna otra función objetivo puede justificarse por la consistencia, lo cual es aceptable, de hecho, mejor que decir que la función cuadrática es más agradable.
En la práctica, he visto muchos casos en los que la gente minimiza directamente la suma de errores cuadrados sin especificar claramente el modelo completo, por ejemplo, los supuestos de distribución (supuestos de momento) del término de error. Entonces me parece que el usuario de este método sólo quiere ver lo cerca que los datos se ajustan al "modelo" (utilizo comillas ya que los supuestos del modelo son probablemente incompletos) en términos de la función de distancia al cuadrado.
Una pregunta relacionada (también con este sitio web) es: ¿por qué, cuando intentamos comparar distintos modelos mediante validación cruzada, volvemos a utilizar el SSE como criterio de juicio? es decir, ¿elegimos el modelo que tiene el menor SSE? ¿Por qué no otro criterio?
0 votos
Relacionado: stats.stackexchange.com/questions/147001