7 votos

¿Qué puede fallar en el MLE si sustituyo algunas estimaciones de la primera etapa en lugar de algunos parámetros?

Supongamos que inicialmente se trata de la función log-verosimilitud $\log L(\theta_1, \ldots, \theta_m, \theta_{m+1}, \ldots, \theta_k)$ , donde $\theta_j \in \mathbb{R}$ .

Supongamos que por la razón que sea decido introducir en $\log L$ algunas estimaciones de la primera etapa $\tilde{\theta}_{m+1}$ , $\ldots$ , $\tilde{\theta}_k$ obtenido de alguna otra manera y luego maximizar $\log L$ en $\theta_1$ , $\ldots$ , $\theta_m$ . Todo $\tilde{\theta}_{m+1}$ , $\ldots$ , $\tilde{\theta}_k$ son estimadores consistentes de los verdaderos valores de los parámetros $\theta_{0,m+1}$ , $\ldots$ , $\theta_{0,k}$ .

Mi pregunta es: ¿qué puede fallar en el MLE en este caso? ¿El estimador MLE $\hat{\theta}_1$ , $\ldots$ , $\hat{\theta}_m$ tienen las mismas propiedades asintóticas que antes? ¿Depende algo de las tasas de convergencia de $\tilde{\theta}_{m+1}$ , $\ldots$ , $\tilde{\theta}_k$ ?

3voto

Altar Puntos 101

Su técnica consiste esencialmente en maximizar la log-verosimilitud condicionada a $\tilde \theta_{m+1},\ldots,\tilde \theta_k$ . La máxima verosimilitud logarítmica completa es el máximo de este máximo condicional a través de todos estos otros parámetros. Esto se utiliza con mucha frecuencia para producir exploraciones de verosimilitud, especialmente cuando $k=m+1$ y sólo hay un parámetro condicionado. La máxima verosimilitud logarítmica en función de $\tilde \theta_k$ es útil para establecer un intervalo de confianza en $\theta_k$ .

Filosóficamente, es siempre el caso de que haya parámetros condicionales que sean fijos, siempre se pueden añadir parámetros adicionales al modelo. Toda función de verosimilitud es una función de verosimilitud condicional, y viceversa; la maximización de una función de logaritmo-verosimilitud condicional tiene todas las propiedades estadísticas que cabría esperar de la maximización de una función de verosimilitud. Las únicas diferencias son de naturaleza no estadística y tienen que ver con las suposiciones que hay detrás de la maximización. Por ejemplo, ¿es razonable simplificar el modelo? Lo normal es saber que se tiene un valor exacto para $\tilde \theta_k$ o que existe algún argumento específico del ámbito (no estadístico) para que tenga un valor determinado. Por ejemplo, en OLS (un tipo de maximización de la probabilidad), se supone que los errores son simétricos, gaussianos e independientes de las variables explicativas (por ejemplo, no heterocedásticos). Siempre se pueden añadir parámetros para la asimetría, la no gaussianidad y la heterocedasticidad, pero a menudo se considera innecesario.

En tu caso, sólo tienes una estimación estadística, con algún intervalo de confianza. La cuestión crítica es si sus estimaciones se toman de los mismos datos que se utilizan durante la maximización de la verosimilitud, o de un conjunto de datos independiente. En este último caso, está realizando un procedimiento muy común. Un procedimiento ad-hoc que podría intentar para propagar las incertidumbres de $\tilde \theta$ en su resultado final podría ser probar su $\tilde \theta$ dentro de sus intervalos de confianza en una especie de bootstrap paramétrico, y maximizar la log-verosimilitud condicional para cada muestra, produciendo un intervalo de confianza ampliado. Otra técnica es dejar que los parámetros floten en la log-verosimilitud, pero añadir términos de restricción para sus intervalos de confianza; por ejemplo, multiplicando la verosimilitud por una f.d.p. gaussiana. $\exp(-(\theta_k-\tilde \theta_k)^2/2\sigma_k^2)$ ignorando las constantes irrelevantes.

Por otro lado, si sus estimaciones $\tilde \theta$ se hacen con los mismos datos utilizados en la maximización de la probabilidad, el suyo es un procedimiento más cuestionable. Tomando el conjunto de $\tilde \theta$ como datos fijos, la maximización de la probabilidad logarítmica condicional es estadísticamente válida, pero no se garantiza que se ajuste a los intervalos de confianza que tenga para su $\tilde \theta$ . Los procedimientos anteriores para añadir términos de restricción a la verosimilitud o muestrear paramétricamente los parámetros no son válidos porque los parámetros son entonces doblemente penalizados por el mismo conjunto de datos. Se podría explorar a través de $\tilde \theta_{m+1},\ldots,\tilde \theta_k$ en una cuadrícula que cubra un intervalo de confianza razonable. Sólo usted puede determinar si esto es mejor/fácil que simplemente maximizar toda la log-verosimilitud.

NOTAS

  • Tal vez no sea el mejor ejemplo, porque normalmente se recomienda estudiar los gráficos/residuos de diagnóstico de una regresión OLS para comprobar estas cosas. Los mejores ejemplos que se me ocurren son específicos del dominio.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X