27 votos

¿Por qué solemos optar por minimizar la suma de errores cuadrados (SSE) al ajustar un modelo?

La pregunta es muy sencilla: ¿por qué, cuando intentamos ajustar un modelo a nuestros datos, lineal o no lineal, solemos intentar minimizar la suma de los cuadrados de los errores para obtener nuestro estimador del parámetro del modelo? ¿Por qué no elegir otra función objetivo para minimizar? Entiendo que, por razones técnicas, la función cuadrática es más agradable que algunas otras funciones, por ejemplo, la suma de la desviación absoluta. Pero sigue sin ser una respuesta muy convincente. Aparte de esta razón técnica, ¿por qué en particular la gente está a favor de este "tipo euclidiano" de función de distancia? ¿Tiene algún significado o interpretación específica?

La lógica de mi pensamiento es la siguiente:

Cuando se dispone de un conjunto de datos, primero se configura el modelo haciendo una serie de suposiciones funcionales o distribucionales (por ejemplo, alguna condición de momento, pero no toda la distribución). En el modelo, hay algunos parámetros (supongamos que se trata de un modelo paramétrico) y, a continuación, hay que encontrar una forma de estimar sistemáticamente estos parámetros y, con suerte, el estimador tendrá una varianza baja y otras buenas propiedades. Ya sea que minimices la SSE o la LAD o alguna otra función objetivo, creo que son sólo métodos diferentes para obtener un estimador consistente. Siguiendo esta lógica, pensé que la gente utiliza mínimos cuadrados debe ser 1) produce estimador consistente del modelo 2) algo más que no sé.

En econometría, sabemos que en un modelo de regresión lineal, si asumimos que los términos de error tienen 0 media condicionada a los predictores y homocedasticidad y los errores no están correlacionados entre sí, entonces minimizar la suma del error cuadrático nos dará un estimador CONSISTENTE de los parámetros de nuestro modelo y por el teorema de Gauss-Markov, este estimador es AZUL. Así que esto sugeriría que si usted elige para minimizar alguna otra función objetivo que no es el SSE, entonces no hay garantía de que obtendrá un estimador coherente de su parámetro del modelo. ¿Es correcta mi interpretación? Si es correcto, entonces minimizar SSE en lugar de alguna otra función objetivo puede justificarse por la consistencia, lo cual es aceptable, de hecho, mejor que decir que la función cuadrática es más agradable.

En la práctica, he visto muchos casos en los que la gente minimiza directamente la suma de errores cuadrados sin especificar claramente el modelo completo, por ejemplo, los supuestos de distribución (supuestos de momento) del término de error. Entonces me parece que el usuario de este método sólo quiere ver lo cerca que los datos se ajustan al "modelo" (utilizo comillas ya que los supuestos del modelo son probablemente incompletos) en términos de la función de distancia al cuadrado.

Una pregunta relacionada (también con este sitio web) es: ¿por qué, cuando intentamos comparar distintos modelos mediante validación cruzada, volvemos a utilizar el SSE como criterio de juicio? es decir, ¿elegimos el modelo que tiene el menor SSE? ¿Por qué no otro criterio?

0 votos

15voto

AdamSane Puntos 1825

Aunque su pregunta es similar a otras preguntas del sitio, algunos aspectos de ésta (como su énfasis en la coherencia) me hacen pensar que no están lo suficientemente cerca de ser duplicadas.

¿Por qué no elegir otra función objetivo para minimizar?

¿Por qué no? Si su objetivo es diferente de los mínimos cuadrados, ¡debería abordar su objetivo en su lugar!

No obstante, los mínimos cuadrados tienen una serie de buenas propiedades (entre ellas, su estrecha relación con la estimación de significa que mucha gente desea, y una sencillez que lo convierte en una primera opción obvia a la hora de enseñar o intentar aplicar nuevas ideas).

Además, en muchos casos la gente no tiene una función objetiva clara, por lo que resulta ventajoso elegir lo que está fácilmente disponible y es ampliamente conocido.

Dicho esto, los mínimos cuadrados también tienen algunas propiedades menos agradables (sensibilidad a los valores atípicos, por ejemplo), por lo que a veces la gente prefiere un criterio más robusto.

minimizar la suma del error cuadrático le dará un estimador CONSISTENTE de los parámetros de su modelo

Mínimos cuadrados es no un requisito de coherencia. La coherencia no es un obstáculo muy grande: muchos estimadores serán coherentes. Casi todos los estimadores que se utilizan en la práctica son coherentes.

y por el teorema de Gauss-Markov, este estimador es AZUL.

Pero en situaciones en las que todos los estimadores lineales son malos (como sería el caso en caso de colas pesadas extremas, por ejemplo), no hay mucha ventaja en el mejor.

si elige minimizar alguna otra función objetivo que no sea la SSE, entonces no hay garantía de que obtendrá un estimador consistente del parámetro de su modelo. ¿Es correcta mi interpretación?

no es difícil encontrar estimadores consistentes, así que no, esa no es una justificación especialmente buena de los mínimos cuadrados

¿por qué cuando intentamos comparar diferentes modelos mediante validación cruzada, utilizamos de nuevo el SSE como criterio de juicio? [...] ¿Por qué no otro criterio?

Si su objetivo se refleja mejor con otra cosa, ¿por qué no?

No falta quien utiliza otras funciones objetivo distintas de los mínimos cuadrados. Aparece en la estimación M, en los estimadores de mínimos recortados, en la regresión cuantílica y cuando se utilizan funciones de pérdida LINEX, por nombrar sólo algunas.

estaba pensando que cuando se tiene un conjunto de datos, primero se establece el modelo, es decir, se hace una serie de suposiciones funcionales o de distribución. En el modelo hay algunos parámetros (supongamos que se trata de un modelo paramétrico),

Es de suponer que lo que intentas estimar son los parámetros de los supuestos funcionales - en cuyo caso, los supuestos funcionales son lo que haces por mínimos cuadrados (o cualquier otra cosa) en torno a ; no determinan el criterio, son lo que el criterio está estimando.

Por otra parte, si usted tiene un supuesto de distribución, entonces usted tiene una gran cantidad de información acerca de una función objetivo más adecuado - presumiblemente, por ejemplo, usted querrá obtener estimaciones eficientes de sus parámetros - que en grandes muestras tenderá a llevarle hacia MLE, (aunque posiblemente en algunos casos incrustado en un marco reforzado).

entonces necesitas encontrar una manera de estimar consistentemente estos parámetros. Ya sea minimizando la SSE o la LAD o alguna otra función objetivo,

LAD es un estimador cuantílico. Es un estimador consistente del parámetro que debe estimar en las condiciones en las que se debe esperar que lo sea, del mismo modo que lo son los mínimos cuadrados. (Si nos fijamos en lo que muestra consistencia con los mínimos cuadrados, hay resultados correspondientes para muchos otros estimadores comunes. La gente raramente usa estimadores inconsistentes, así que si ves que un estimador está siendo ampliamente discutido, a menos que hablan de su incoherencia, es casi seguro que es coherente*).

* Dicho esto, la coherencia no es necesariamente una propiedad esencial. Al fin y al cabo, para mi muestra tengo un tamaño de muestra concreto, no una secuencia de tamaños de muestra que tienden al infinito. Lo que importa son las propiedades en el $n$ que tengo, no una infinitamente mayor $n$ que yo no tienen y nunca verán . Pero hay que tener mucho más cuidado cuando hay incoherencia: podemos tener un buen estimador en $n$ =20, pero puede ser terrible en $n$ =2000; se requiere más esfuerzo, en cierto sentido, si queremos utilizar estimadores incoherentes de forma habitual.

Si usas LAD para estimar la media de una exponencial, no será consistente para eso (aunque un escalado trivial de su estimación lo sería) -- pero del mismo modo si usas mínimos cuadrados para estimar la mediana de una exponencial, no será consistente para eso (y de nuevo, un reescalado trivial lo arregla).

0 votos

Creo que no he expresado claramente mi preocupación. Pensaba que, cuando se dispone de un conjunto de datos, primero se configura el modelo, es decir, se establecen una serie de supuestos funcionales o distribucionales. En su modelo, hay algunos parámetros (supongamos que se trata de un modelo paramétrico), entonces usted necesita encontrar una manera de estimar consistentemente estos parámetros. Ya sea que minimices la SSE o LAD o alguna otra función objetivo, creo que son sólo métodos diferentes para obtener el estimador. Siguiendo esta lógica, pensé que la gente utiliza mínimos cuadrados debe ser 1) produce estimador consistente del modelo 2) algo más

0 votos

Es de suponer que lo que se intenta estimar son los parámetros de los supuestos funcionales; en ese caso, los supuestos funcionales son lo que se tiene en cuenta para realizar los mínimos cuadrados (o cualquier otra cosa), pero no determinan el criterio. Por otro lado, si tiene un supuesto distribucional, entonces tiene mucha información sobre una función objetivo más adecuada -- presumiblemente, por ejemplo, querrá obtener eficiente estimaciones de sus parámetros -- que en muestras grandes tenderán a llevarle hacia MLE, (aunque posiblemente en algunos casos incrustado en un marco reforzado).

0 votos

Esta respuesta se ajustaba a mi forma de pensar. Pero sigo teniendo una pregunta, ¿qué quiere decir con "no determinan el criterio"? ¿Significa esto que, por ejemplo, en econometría 101 en regresión lineal, bajo el supuesto funcional (no distribucional), para obtener el estimador consistente, tienes que usar ols, no puedes usar alguna función objetivo arbitraria para minimizar, ya que no hay garantía para derivar un estimador consistente de ahí?

4voto

jws121295 Puntos 36

Usted ha planteado una pregunta estadística, y espero que mi respuesta de ingeniero de sistemas de control sea una puñalada desde una dirección lo suficientemente diferente como para resultar esclarecedora.

He aquí una forma "canónica" de flujo de información para la ingeniería de sistemas de control: enter image description here

La "r" es un valor de referencia. Se suma con una transformada "F" de la salida "y" para producir un error "e". Este error es la entrada para un controlador, transformado por la función de transferencia de control "C" en una entrada de control para la planta "P". Se pretende que sea lo suficientemente general como para aplicarse a plantas arbitrarias. La "planta" podría ser el motor de un coche para el control de crucero, o el ángulo de entrada de un péndulo inverso.

Supongamos que se tiene una planta con una función de transferencia conocida con una fenomenología adecuada para la siguiente discusión, un estado actual y un estado final deseado. ( tabla 2.1 pp68 ) Hay un número infinito de caminos únicos que el sistema, con diferentes entradas, podría recorrer para llegar del estado inicial al final. Los "enfoques óptimos" de los ingenieros de control de los libros de texto incluyen el óptimo temporal ( menor tiempo/bang-bang ), distancia óptima (camino más corto), fuerza óptima (menor magnitud máxima de entrada) y energía óptima (aporte energético total mínimo).

Al igual que hay un número infinito de caminos, hay un número infinito de "óptimos", cada uno de los cuales elige uno de esos caminos. Si se elige un camino y se dice que es el mejor, implícitamente se está eligiendo una "medida de bondad" o "medida de optimalidad".

En mi opinión personal, creo que a la gente le gusta la norma L-2 (también conocida como energía óptima o error mínimo al cuadrado) porque es simple, fácil de explicar, fácil de ejecutar, tiene la propiedad de hacer más trabajo contra errores más grandes que contra errores más pequeños, y sale con sesgo cero. Consideremos las normas h-infinito, en las que la varianza se minimiza y el sesgo se limita, pero no es cero. Pueden ser muy útiles, pero son más complejas de describir y de codificar.

Creo que la norma L2, también conocida como la ruta óptima que minimiza la energía, también conocida como el ajuste del error mínimo al cuadrado, es fácil y en un sentido perezoso se ajusta a la heurística de que "los errores más grandes son más malos, y los errores más pequeños son menos malos". Hay literalmente un número infinito de formas algorítmicas de formular esto, pero el error al cuadrado es una de las más convenientes. Sólo requiere álgebra, por lo que más gente puede entenderlo. Funciona en el (popular) espacio polinómico. La energía óptima es coherente con gran parte de la física que comprende nuestro mundo percibido, por lo que "resulta familiar". Es bastante rápido de calcular y no consume demasiada memoria.

Si tengo más tiempo me gustaría poner fotos, códigos o referencias bibliográficas.

0voto

AusTravel Puntos 6

Creo que, al ajustar modelos, solemos optar por minimizar la suma de errores al cuadrado ( $SSE$ ) debido a que $SSE$ tiene un directo (negativo) relación con $R^2$ un importante estadística de bondad de ajuste (GoF) para un modelo, como sigue ( $SST$ es suma de cuadrados total ):

$$ R^2 = 1 - \frac{SSE}{SST} $$

Omitiendo la discusión de por qué un $R^2$ es mejor ( imparcial ) debido a la corrección en función del tamaño de la muestra y el número de coeficientes (véase este o este ), me parece que este conexión es importante ya que $R^2$ familia de estadísticas es la que representa medidas relativas del ajuste frente a medidas absolutas como error cuadrático medio ( $RMSE$ ).

Además, el hecho de que $R^2$ es igual al porcentaje de la varianza en la variable dependiente que puede ser explicada por todas las variables independientes tomadas en conjunto, hace que $R^2$ y, por tanto, indirectamente, $SSE$ medidas de poder explicativo (o poder predictivo ) de un modelo. De hecho, para los modelos predictivos, algunas personas recomiendan utilizar un método similar a $SSE$ estadística - suma de cuadrados residual prevista ( $PRESS$ ). Para más detalles, véase esta entrada y esta entrada que son relevantes para su pregunta al final del post.

Concluyendo y respondiendo a su pregunta principal, creo que solemos minimizar $SSE$ porque es equivalente a maximizar poder explicativo o predictivo de un modelo estadístico en cuestión.

2 votos

Ajustado $R^2$ es insesgada cuando la población $R^2$ es cero ¿pero es insesgada en general, es decir, cuando algunas pendientes son distintas de cero en la población?

0 votos

@Silverfish: Gracias por el comentario. Acabo de leer el post al que te has referido y parece que tienes razón: ajustado. $R^2$ es lo que yo llamaría condicionalmente insesgado . Alternativamente, puede etiquetarse como "un aproximadamente imparcial estimación de la población $R^2$ "(el subrayado es mío; véase la diapositiva 13 en este documento ).

0 votos

En $R^2$ : Variación explicada dice "R^2 da el "porcentaje de varianza explicada" por la regresión, una expresión que, para la mayoría de los científicos sociales, tiene un significado dudoso pero un gran valor retórico". Por otro lado, Glen_b dice con razón que "hay una ventaja en elegir lo que está fácilmente disponible y es ampliamente comprendido".

0voto

mrsteve Puntos 113

También puede intentar minimizar el error máximo en lugar del ajuste por mínimos cuadrados. Existe una amplia bibliografía sobre el tema. Como palabra de búsqueda, pruebe con los polinomios "Tchebechev", también deletreados "Chebyshev".

2 votos

El máximo es una norma L-infinita. Si echas un vistazo a Nutonian/Formulize/Eureqa, tienen un buen zoo de funcionales de coste (formas de error) incluyendo error absoluto intercuartílico, error de pérdida de bisagra, ROC-AUC, y diferencia con signo. formulize.nutonian.com/documentation/eureqa/general-reference/

0 votos

Pensé que el comentario anterior era sarcástico, pero no lo era.

0voto

Angus Peters Puntos 6

Parece que la gente usa cuadrados porque permite estar dentro del ámbito del Álgebra Lineal y no tocar otras cosas más complicadas como la optimización convexa que es más potente, pero lleva a usar solucionadores sin buenas soluciones de forma cerrada.

También la idea de este reino matemático que tiene el nombre de optimización convexa no se ha extendido mucho.

"...Por qué nos preocupamos por el cuadrado de los artículos. Para ser sinceros, porque podemos analizarlo... Si dices que corresponde a Energía y te lo compran, pues adelante rápidamente....". -- https://youtu.be/l1X4tOoIHYo?t=1416 EE263, L8, 23:36.

También aquí Stephen P. Boyd describe en 2008 que la gente usa hammer y adhoc: L20, 01:05:15 -- https://youtu.be/qoCa7kMLXNg?t=3916

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X