¿Cuáles son las propiedades de la MLE que la hacen más deseable que la MCO?

Question

¿Cuáles son las propiedades de la MLE que la hacen más deseable que la MCO?

Preguntado el 7 de Noviembre, 2017: Cuando se hizo la pregunta
222 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Esta pregunta parece lo suficientemente fundamental como para estar convencido de que se ha respondido aquí en alguna parte, pero no la he encontrado.

Entiendo que si la variable dependiente en una regresión se distribuye normalmente, la máxima verosimilitud y los mínimos cuadrados ordinarios producen las mismas estimaciones de parámetros.

Cuando la variable dependiente es no normalmente distribuidos, las estimaciones de los parámetros OLS ya no son equivalentes a las MLE, pero siguen siendo las mejores estimaciones lineales insesgadas (de varianza mínima) (BLUE).

Entonces, ¿cuáles son las propiedades de MLE que lo hacen deseable más allá de lo que ofrece OLS (ser AZUL)?

En otras palabras, ¿qué pierdo si no puedo decir que mis estimaciones OLS son estimaciones de máxima verosimilitud?

Para motivar un poco esta pregunta: Me pregunto por qué querría elegir un modelo de regresión que no sea OLS en presencia de una variable dependiente claramente no normal.

Preguntado el 7 de Noviembre, 2017 por J Tweed

0 votos

Depende de lo que se quiera obtener del modelo. Los economistas suelen querer estimaciones del efecto marginal promedio en la muestra, y OLS las proporciona (siempre que no le molesten los supuestos de separabilidad aditiva). Pero si quiere un modelo que describa otras características del fenómeno subyacente, OLS no funcionará tan bien. Por ejemplo, podría estar interesado en la predicción fuera de la muestra, o querer mejores estimaciones de la incertidumbre.

Comentado el 7 de Noviembre, 2017 por generic_user

0 votos

Cabe mencionar que MLE es más sensible a los valores atípicos, porque la función objetivo utiliza el error al cuadrado (por lo que el problema empeora cuanto más extrema es la desviación). Por ello, las técnicas de "regresión robusta", como la estimación M, utilizan MLE en lugar de OLS.

Comentado el 7 de Noviembre, 2017 por HEITZ

0 votos

Si el término de error no es normal, las pruebas t y F de los coeficientes pueden ser poco fiables. La asimetría extrema y los valores atípicos extremos son un problema particular. En la práctica, esto dificulta la especificación correcta del modelo, lo que contribuye a un posible sesgo en las estimaciones de los coeficientes (debido a una especificación errónea) y a un mal rendimiento fuera de la muestra.

Comentado el 10 de Noviembre, 2017 por quiche

Answer 1

2 Respuestas

Answer 2

7voto

AdamSane Puntos 1825

Al alejarse lo suficiente de la normalidad, todos los estimadores lineales pueden ser arbitrariamente malos .

Sabiendo que se puede obtener lo mejor de un lote malo (es decir, el mejor estimación lineal no sesgada) no es un gran consuelo.

Si puede especificar un modelo de distribución adecuado ( ay, ahí está el problema ), la maximización de la probabilidad tiene tanto un atractivo intuitivo directo, en el sentido de que "maximiza la probabilidad" de ver la muestra que realmente se ha visto (con un refinamiento adecuado de lo que queremos decir con eso para el caso continuo), como una serie de propiedades muy claras que son útiles tanto en la teoría como en la práctica (por ejemplo, la relación con el límite inferior de Cramer-Rao, la equivarianza bajo transformación, la relación con las pruebas de razón de verosimilitud, etc.). Esto motiva, por ejemplo, la estimación M.

Incluso cuando no se puede especificar un modelo, es posible construir un modelo para el que el ML es robusto a la contaminación por errores gruesos en la distribución condicional de la respuesta -- donde conserva una eficiencia bastante buena en la gaussiana pero evita el impacto potencialmente desastroso de los valores atípicos arbitrariamente grandes.

[No es lo único que hay que tener en cuenta con la regresión, ya que también es necesario que sea robusta ante el efecto de los valores atípicos influyentes, por ejemplo, pero es un buen paso inicial].

Como demostración del problema que supone incluso el mejor estimador lineal, considere esta comparación de estimadores de pendiente para la regresión. En este caso hay 100 observaciones en cada muestra, x es 0/1, la verdadera pendiente es $\frac12$ y los errores son de Cauchy estándar. La simulación toma 1000 conjuntos de datos simulados y calcula la estimación por mínimos cuadrados de la pendiente ("LS"), así como un par de estimadores no lineales que podrían utilizarse en esta situación (ninguno es totalmente eficiente en el Cauchy, pero ambos son razonables): uno es un estimador L1 de la línea ("L1") y el segundo calcula una estimación L simple de la ubicación en los dos valores de x y ajusta una línea que los une ("LE").

La parte superior del diagrama es un boxplot de esas mil estimaciones de pendiente para cada simulación. La parte inferior es el uno por ciento central (aproximadamente, está marcado con un tenue recuadro naranja-gris en el diagrama superior) de esa imagen "ampliada" para que podamos ver más detalles. Como vemos, las pendientes de los mínimos cuadrados van de -771 a 1224 y los cuartiles inferior y superior son -1,24 y 2,46. El error en la pendiente de los mínimos cuadrados fue superior a 10 más del 10% de las veces. Los dos estimadores no lineales son mucho mejores: su rendimiento es bastante similar, ninguna de las 1.000 estimaciones de la pendiente en ninguno de los dos casos se aleja más de 0,84 de la pendiente real y la mediana del error absoluto de la pendiente está en torno a 0,14 para cada uno (frente a 1,86 para el estimador de mínimos cuadrados). La pendiente LS tiene un RMSE de 223 y 232 veces el de los estimadores L1 y LE en este caso (sin embargo, no es una cantidad especialmente significativa, ya que el estimador LS no tiene una varianza finita cuando hay errores de Cauchy).

Hay docenas de otros estimadores razonables que podrían haberse utilizado aquí; esto era simplemente un cálculo rápido para ilustrar que incluso los mejores/ más eficientes estimadores lineales pueden no ser útiles. Un estimador ML de la pendiente funcionaría mejor (en el sentido de MSE) que los dos estimadores robustos utilizados aquí, pero en la práctica se querría algo con cierta robustez a los puntos influyentes.

Respondido el 7 de Noviembre, 2017 por AdamSane (1825 Puntos )

0 votos

Bien dicho. Eso tiene mucho sentido. Supongo que los estimadores lineales siguen funcionando bastante bien (quizá incluso mejor que los no lineales) cuando la variable dependiente no es normal pero sigue siendo simétrica. ¿Es correcta mi intuición?

Comentado el 9 de Noviembre, 2017 por J Tweed

1 votos

No, la simetría no es suficiente para rescatar la estimación lineal. Consideremos los errores de Cauchy, por ejemplo. Hay un gran número de estimadores adecuados, pero todos son no lineales en el sentido previsto.

Comentado el 9 de Noviembre, 2017 por AdamSane

0 votos

He hecho una pequeña simulación para ilustrar que este problema (de rendimiento potencialmente malo) se aplica a las distribuciones de error simétricas -- ver mi edición. Esa simulación es para una distribución de error simétrica. Puedes ver lo desastrosos que pueden ser los mínimos cuadrados en ese caso. De hecho, incluso una pequeña fracción de contaminación con algo que puede tener errores gruesos es un problema para él. Ser AZUL a veces puede ser de poco valor. Si usted sabe algo acerca de cómo se comportan sus errores, puede ser una buena idea utilizar ese conocimiento ... ctd

Comentado el 9 de Noviembre, 2017 por AdamSane

Mostrar 1 comentarios más

Answer 3

1voto

user144600 Puntos 106

En el caso de datos normalmente distribuidos, OLS converge con el MLE, una solución que es AZUL (en ese punto). Una vez fuera de la normalidad, OLS ya no es BLUE (en los términos del teorema de Gauss-Markov) - esto es porque OLS busca minimizar el SSR mientras que el GMT define BLUE en términos de SE mínimo. Ver más aquí .

En general, dado que existe un MLE (busque "fallo de MLE" o para los casos en los que el MLE no existe), es más fácil ajustarlo, ya sea para minimizar la varianza o para hacerlo insesgado (y, por tanto, comparable a otros estimadores).

Respondido el 7 de Noviembre, 2017 por user144600 (106 Puntos )

4 votos

No es necesario que la variable dependiente sea normal para que OLS sea AZUL: es.wikipedia.org/wiki/Gauss%E2%80%93Teorema de Markov

Comentado el 7 de Noviembre, 2017 por J Tweed

1 votos

... además, con datos normalmente distribuidos, OLS = la MLE, no converge a ella. Tu segundo párrafo tampoco es muy claro... ¿es más fácil ajustar el MLE que qué?

Comentado el 7 de Noviembre, 2017 por bheklilr

0 votos

OLS sigue siendo AZUL fuera de la normalidad; el problema es que AZUL (y en particular, el L ) no es necesariamente algo útil.

Comentado el 21 de Mayo, 2018 por AdamSane

¿Cuáles son las propiedades de la MLE que la hacen más deseable que la MCO?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cuáles son las propiedades de la MLE que la hacen más deseable que la MCO?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: