Al alejarse lo suficiente de la normalidad, todos los estimadores lineales pueden ser arbitrariamente malos .
Sabiendo que se puede obtener lo mejor de un lote malo (es decir, el mejor estimación lineal no sesgada) no es un gran consuelo.
Si puede especificar un modelo de distribución adecuado ( ay, ahí está el problema ), la maximización de la probabilidad tiene tanto un atractivo intuitivo directo, en el sentido de que "maximiza la probabilidad" de ver la muestra que realmente se ha visto (con un refinamiento adecuado de lo que queremos decir con eso para el caso continuo), como una serie de propiedades muy claras que son útiles tanto en la teoría como en la práctica (por ejemplo, la relación con el límite inferior de Cramer-Rao, la equivarianza bajo transformación, la relación con las pruebas de razón de verosimilitud, etc.). Esto motiva, por ejemplo, la estimación M.
Incluso cuando no se puede especificar un modelo, es posible construir un modelo para el que el ML es robusto a la contaminación por errores gruesos en la distribución condicional de la respuesta -- donde conserva una eficiencia bastante buena en la gaussiana pero evita el impacto potencialmente desastroso de los valores atípicos arbitrariamente grandes.
[No es lo único que hay que tener en cuenta con la regresión, ya que también es necesario que sea robusta ante el efecto de los valores atípicos influyentes, por ejemplo, pero es un buen paso inicial].
Como demostración del problema que supone incluso el mejor estimador lineal, considere esta comparación de estimadores de pendiente para la regresión. En este caso hay 100 observaciones en cada muestra, x es 0/1, la verdadera pendiente es $\frac12$ y los errores son de Cauchy estándar. La simulación toma 1000 conjuntos de datos simulados y calcula la estimación por mínimos cuadrados de la pendiente ("LS"), así como un par de estimadores no lineales que podrían utilizarse en esta situación (ninguno es totalmente eficiente en el Cauchy, pero ambos son razonables): uno es un estimador L1 de la línea ("L1") y el segundo calcula una estimación L simple de la ubicación en los dos valores de x y ajusta una línea que los une ("LE").
La parte superior del diagrama es un boxplot de esas mil estimaciones de pendiente para cada simulación. La parte inferior es el uno por ciento central (aproximadamente, está marcado con un tenue recuadro naranja-gris en el diagrama superior) de esa imagen "ampliada" para que podamos ver más detalles. Como vemos, las pendientes de los mínimos cuadrados van de -771 a 1224 y los cuartiles inferior y superior son -1,24 y 2,46. El error en la pendiente de los mínimos cuadrados fue superior a 10 más del 10% de las veces. Los dos estimadores no lineales son mucho mejores: su rendimiento es bastante similar, ninguna de las 1.000 estimaciones de la pendiente en ninguno de los dos casos se aleja más de 0,84 de la pendiente real y la mediana del error absoluto de la pendiente está en torno a 0,14 para cada uno (frente a 1,86 para el estimador de mínimos cuadrados). La pendiente LS tiene un RMSE de 223 y 232 veces el de los estimadores L1 y LE en este caso (sin embargo, no es una cantidad especialmente significativa, ya que el estimador LS no tiene una varianza finita cuando hay errores de Cauchy).
Hay docenas de otros estimadores razonables que podrían haberse utilizado aquí; esto era simplemente un cálculo rápido para ilustrar que incluso los mejores/ más eficientes estimadores lineales pueden no ser útiles. Un estimador ML de la pendiente funcionaría mejor (en el sentido de MSE) que los dos estimadores robustos utilizados aquí, pero en la práctica se querría algo con cierta robustez a los puntos influyentes.
0 votos
Depende de lo que se quiera obtener del modelo. Los economistas suelen querer estimaciones del efecto marginal promedio en la muestra, y OLS las proporciona (siempre que no le molesten los supuestos de separabilidad aditiva). Pero si quiere un modelo que describa otras características del fenómeno subyacente, OLS no funcionará tan bien. Por ejemplo, podría estar interesado en la predicción fuera de la muestra, o querer mejores estimaciones de la incertidumbre.
0 votos
Cabe mencionar que MLE es más sensible a los valores atípicos, porque la función objetivo utiliza el error al cuadrado (por lo que el problema empeora cuanto más extrema es la desviación). Por ello, las técnicas de "regresión robusta", como la estimación M, utilizan MLE en lugar de OLS.
0 votos
Si el término de error no es normal, las pruebas t y F de los coeficientes pueden ser poco fiables. La asimetría extrema y los valores atípicos extremos son un problema particular. En la práctica, esto dificulta la especificación correcta del modelo, lo que contribuye a un posible sesgo en las estimaciones de los coeficientes (debido a una especificación errónea) y a un mal rendimiento fuera de la muestra.