Premisa: esta puede ser una pregunta estúpida. Sólo sé que las declaraciones acerca de los MLE asintótica propiedades, pero nunca he estudiado las pruebas. Si lo hacía, tal vez me woulnd no se pueden hacer estas preguntas, o tal vez me daría cuenta de que estas preguntas no tienen sentido...así que por favor ir fácil en mí :)
A menudo he visto declaraciones que dicen que el MLE estimador de parámetros del modelo es asintóticamente normal y eficiente. La declaración se suele escribir como
$\hat{\theta}\xrightarrow[]{d}\mathcal{N}(\theta_0,\mathbf{I}(\theta_0)^{-1})$ $N\to\infty$
donde $N$ es el número de muestras, $\mathbf{I}$ es de Fisher de la información y la $\theta_0$ es el parámetro (vector) verdadero valor. Ahora, ya que no existe referencia a un modelo verdadero, esto no significa que el resultado no va a aguantar si el modelo no es cierto?
Ejemplo: supongamos que el modelo de potencia de salida de una turbina de viento $P$ como una función de la velocidad del viento $V$ más de ruido aditivo Gaussiano
$P=\beta_0+\beta_1V+\beta_2V^2+\epsilon$
Sé que el modelo está mal, al menos por dos razones: 1) $P$ es realmente proporcional a la tercera potencia de $V$, y 2) el error no es aditivo, porque dejé de lado otros predictores, los cuales no están correlacionadas con la velocidad del viento (también sé que $\beta_0$ debe ser 0 porque 0 la velocidad del viento no se genera la energía, pero que no es relevante aquí). Ahora, supongamos que tengo una infinita base de datos de alimentación y de datos de velocidad del viento de mi turbina de viento. Puedo dibujar como muchas de las muestras que yo quiero, de cualquier tamaño. Supongamos que dibujar 1000 muestras, cada una de tamaño 100, y calcular el $\hat{\boldsymbol{\beta}}_{100}$, el MLE estimación de $\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)$ (que bajo mi modelo sería sólo la estimación OLS). Así, tengo 1000 muestras de la distribución de $\hat{\boldsymbol{\beta}}_{100}$. Me puede repetir el ejercicio con $N=500,1000,1500,\dots$. Como $N\to\infty$, la distribución debe de $\hat{\boldsymbol{\beta}}_{N}$ tienden a ser asintóticamente normal, con la declarada media y la varianza? ¿O es que el hecho de que el modelo es incorrecto invalidar este resultado?
La razón por la que estoy pidiendo es que rara vez (si alguna vez) modelo son los "verdaderos" en las aplicaciones. Si las propiedades asintóticas de MLE se pierden cuando el modelo no es cierto, entonces podría tener sentido utilizar diferentes estimación de principios, que si bien es menos potente en un entorno en donde el modelo es correcto, puede funcionar mejor que la MLE en otros casos.
EDIT: se observó en los comentarios de que la noción de verdadero modelo puede ser problemático. Tuve la siguiente definición: dada una familia de modelos de $f_{\boldsymbol{\theta}}(x)$ indicized por el vector de parámetros $\boldsymbol{\theta}$, para cada modelo en la familia siempre se puede escribir
$Y=f_{\boldsymbol{\theta}}(X)+\epsilon$
simplemente la definición de $\epsilon$$Y-f_{\boldsymbol{\theta}}(X)$. Sin embargo, en general, el error no será ortogonal a $X$, tienen media 0, y no necesariamente de la distribución asumida en la derivación del modelo. Si existe un valor de $\boldsymbol{\theta_0}$ tal que $\epsilon$ tiene estas dos propiedades, así como el supuesto de la distribución, yo diría que el modelo es válido. Creo que esto está directamente relacionado a decir que $f_{\boldsymbol{\theta_0}}(X)=E[Y|X]$, debido a que el término de error en la descomposición
$Y=E[Y|X]+\epsilon$
tiene las dos propiedades mencionadas anteriormente.