Supongamos que la verdadera DGP es $$ x_i \sim d_1(\theta_1), \quad i=1,\ldots,N $$ donde $d_1$ es una distribución de probabilidad con parámetro(s) $\theta_1$ , pero asumo erróneamente $$ x_i \sim d_2(\theta_2). $$ Ahora supongamos que hago una estimación (numérica) de máxima verosimilitud de $d_2$ . Obviamente no puedo recuperar $\theta_2$ consistentemente, ya que el supuesto distribucional es erróneo, pero supongamos que mi estimador ML converge a algo constante $$ \lim_{N \rightarrow \infty} \hat{\theta}_2 = c \neq \theta_2. $$ Ahora mi pregunta es, ¿se cumple que (para todas las distribuciones de probabilidad posibles) $$ p_{d_1}(\theta_1) \geq p_{d_2}(c), $$ donde $p$ denotan las respectivas funciones de densidad de probabilidad?
Respuesta
¿Demasiados anuncios?Voy a reformular ligeramente su pregunta: suponemos que tiene $N$ muestras $\{x_i\}_{1 \leq i \leq N}$ que se generaron a partir de un modelo $d_1$ con parámetros $\theta_1 \in \Theta_1$ (donde $\Theta_1$ es el conjunto de parámetros posibles para $d_1$ ).
No conoces ni el modelo de la verdad sobre el terreno $d_1$ ni sus parámetros $\theta_1$ . Vas a montar un modelo $d_2$ (que es diferente de la verdad sobre el terreno $d_1$ : "todos los modelos son erróneos" ) y estimar sus parámetros $\theta_2 \in \Theta_2$ por ejemplo, mediante una estimación de máxima verosimilitud:
$$ \hat{\theta}_2 = argmax_{\theta_2} \ \ p(\{x_i\}|\theta_2,d_2) $$
Si supieras la verdad $d_1$ y $\theta_1$ ¿tendrías necesariamente $p(\{x_i\}|\theta_1,d_1) \geq p(\{x_i\}|\hat{\theta}_2,d_2)$ (es decir, una mayor evidencia de modelo para el modelo de la verdad sobre el terreno)? Pues no. No existe un vínculo formal y sistemático entre las evidencias del modelo para $d_1$ y $d_2$ ya que su proporción va a depender de:
- Sus complejidades relativas (es decir, el número de parámetros libres, medido por $|\Theta_1|$ y $|\Theta_2|$ ). Si $|\Theta_2| < |\Theta_1|$ es decir, si $d_2$ es más sencillo que $d_1$ podría no ser capaz de explicar las observaciones y, por tanto, tener una probabilidad baja. Sin embargo, si $|\Theta_1| < |\Theta_2|$ entonces las pruebas del modelo $d_2$ se verá penalizado por su mayor número de parámetros libres. Esto se explica muy bien en el capítulo 28 del siguiente libro de texto:
- Observaciones $\{x_i\}_{1 \leq i \leq N}$ . Si $N$ es pequeño, o si el conjunto $\{x_i\}$ es un valor atípico que no representa la producción media de $d_1$ entonces la evidencia del modelo para $d_1$ será pequeño. Se trata de un caso de no identificabilidad, que analizamos en el siguiente documento:
También propuse una solución para el caso eran $|\Theta_1| < |\Theta_2|$ en la siguiente pregunta: Prueba formal de la navaja de Occam para modelos anidados