14 votos

Es MLE estimación asintóticamente normal y eficiente, incluso si el modelo no es cierto?

Premisa: esta puede ser una pregunta estúpida. Sólo sé que las declaraciones acerca de los MLE asintótica propiedades, pero nunca he estudiado las pruebas. Si lo hacía, tal vez me woulnd no se pueden hacer estas preguntas, o tal vez me daría cuenta de que estas preguntas no tienen sentido...así que por favor ir fácil en mí :)

A menudo he visto declaraciones que dicen que el MLE estimador de parámetros del modelo es asintóticamente normal y eficiente. La declaración se suele escribir como

$\hat{\theta}\xrightarrow[]{d}\mathcal{N}(\theta_0,\mathbf{I}(\theta_0)^{-1})$ $N\to\infty$

donde $N$ es el número de muestras, $\mathbf{I}$ es de Fisher de la información y la $\theta_0$ es el parámetro (vector) verdadero valor. Ahora, ya que no existe referencia a un modelo verdadero, esto no significa que el resultado no va a aguantar si el modelo no es cierto?

Ejemplo: supongamos que el modelo de potencia de salida de una turbina de viento $P$ como una función de la velocidad del viento $V$ más de ruido aditivo Gaussiano

$P=\beta_0+\beta_1V+\beta_2V^2+\epsilon$

Sé que el modelo está mal, al menos por dos razones: 1) $P$ es realmente proporcional a la tercera potencia de $V$, y 2) el error no es aditivo, porque dejé de lado otros predictores, los cuales no están correlacionadas con la velocidad del viento (también sé que $\beta_0$ debe ser 0 porque 0 la velocidad del viento no se genera la energía, pero que no es relevante aquí). Ahora, supongamos que tengo una infinita base de datos de alimentación y de datos de velocidad del viento de mi turbina de viento. Puedo dibujar como muchas de las muestras que yo quiero, de cualquier tamaño. Supongamos que dibujar 1000 muestras, cada una de tamaño 100, y calcular el $\hat{\boldsymbol{\beta}}_{100}$, el MLE estimación de $\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)$ (que bajo mi modelo sería sólo la estimación OLS). Así, tengo 1000 muestras de la distribución de $\hat{\boldsymbol{\beta}}_{100}$. Me puede repetir el ejercicio con $N=500,1000,1500,\dots$. Como $N\to\infty$, la distribución debe de $\hat{\boldsymbol{\beta}}_{N}$ tienden a ser asintóticamente normal, con la declarada media y la varianza? ¿O es que el hecho de que el modelo es incorrecto invalidar este resultado?

La razón por la que estoy pidiendo es que rara vez (si alguna vez) modelo son los "verdaderos" en las aplicaciones. Si las propiedades asintóticas de MLE se pierden cuando el modelo no es cierto, entonces podría tener sentido utilizar diferentes estimación de principios, que si bien es menos potente en un entorno en donde el modelo es correcto, puede funcionar mejor que la MLE en otros casos.

EDIT: se observó en los comentarios de que la noción de verdadero modelo puede ser problemático. Tuve la siguiente definición: dada una familia de modelos de $f_{\boldsymbol{\theta}}(x)$ indicized por el vector de parámetros $\boldsymbol{\theta}$, para cada modelo en la familia siempre se puede escribir

$Y=f_{\boldsymbol{\theta}}(X)+\epsilon$

simplemente la definición de $\epsilon$$Y-f_{\boldsymbol{\theta}}(X)$. Sin embargo, en general, el error no será ortogonal a $X$, tienen media 0, y no necesariamente de la distribución asumida en la derivación del modelo. Si existe un valor de $\boldsymbol{\theta_0}$ tal que $\epsilon$ tiene estas dos propiedades, así como el supuesto de la distribución, yo diría que el modelo es válido. Creo que esto está directamente relacionado a decir que $f_{\boldsymbol{\theta_0}}(X)=E[Y|X]$, debido a que el término de error en la descomposición

$Y=E[Y|X]+\epsilon$

tiene las dos propiedades mencionadas anteriormente.

5voto

Jeff Bauer Puntos 236

Yo no creo que exista una respuesta única a esta pregunta.

Cuando consideramos posible la distribución de la misspecification mientras que la aplicación de estimación de máxima verosimilitud, tenemos lo que se llama el "Cuasi-Máxima Verosimilitud" estimador (QMLE). En ciertos casos, el QMLE es consistente y asintóticamente normal.

Lo que se pierde con certeza es asintótica de la eficiencia. Esto es debido a que la varianza asintótica de $\sqrt n (\hat \theta - \theta)$ (esta es la cantidad que tiene una distribución asintótica, no sólo a $\hat \theta$), en todos los casos,

$$\text{Avar}[\sqrt n (\hat \theta - \theta)] = \text{plim}\Big( [\hat H]^{-1}[\hat S \hat S^T][\hat H]^{-1}\Big) \tag{1}$$

donde $H$ es la matriz Hessiana de la log-verosimilitud y $S$ es el gradiente, y el sombrero indica que de la muestra de estimación.

Ahora, si tenemos correcta especificación, se consigue, en primer lugar, que

$$\text{Avar}[\sqrt n (\hat \theta - \theta)] = (\mathbb E[H_0])^{-1}\mathbb E[S_0S_0^T](\mathbb E[H_0])^{-1} \tag{2}$$

donde el "$0$" subíndice denota la evaluación en el verdadero parámetros (y tenga en cuenta que el término medio es la definición de Fisher de la Información), y en segundo lugar, que la "matriz de información de la igualdad" sostiene y afirma que $-\mathbb E[H_0] = \mathbb E[S_0S_0^T]$, lo que significa que la varianza asintótica finalmente se

$$\text{Avar}[\sqrt n (\hat \theta - \theta)] = -(\mathbb E[H_0])^{-1} \tag{3}$$

que es la inversa de la información de Fisher.

Pero si tenemos misspecification, la expresión $(1)$ no conduce a la expresión de $(2)$ (porque la primera y la segunda derivados en $(1)$ han sido derivados basados en el mal probabilidad). Esto a su vez implica que la información de la matriz de la desigualdad no se sostiene, que no terminan en la expresión de $(3)$, y que la (Q)MLE no alcanzar la plena asintótica de la eficiencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X