3 votos

¿Un modelo mal especificado tiene siempre un valor de probabilidad más bajo que el modelo correcto?

Supongamos que la verdadera DGP es $$ x_i \sim d_1(\theta_1), \quad i=1,\ldots,N $$ donde $d_1$ es una distribución de probabilidad con parámetro(s) $\theta_1$ , pero asumo erróneamente $$ x_i \sim d_2(\theta_2). $$ Ahora supongamos que hago una estimación (numérica) de máxima verosimilitud de $d_2$ . Obviamente no puedo recuperar $\theta_2$ consistentemente, ya que el supuesto distribucional es erróneo, pero supongamos que mi estimador ML converge a algo constante $$ \lim_{N \rightarrow \infty} \hat{\theta}_2 = c \neq \theta_2. $$ Ahora mi pregunta es, ¿se cumple que (para todas las distribuciones de probabilidad posibles) $$ p_{d_1}(\theta_1) \geq p_{d_2}(c), $$ donde $p$ denotan las respectivas funciones de densidad de probabilidad?

3voto

asdfghjkl Puntos 1

Voy a reformular ligeramente su pregunta: suponemos que tiene $N$ muestras $\{x_i\}_{1 \leq i \leq N}$ que se generaron a partir de un modelo $d_1$ con parámetros $\theta_1 \in \Theta_1$ (donde $\Theta_1$ es el conjunto de parámetros posibles para $d_1$ ).

No conoces ni el modelo de la verdad sobre el terreno $d_1$ ni sus parámetros $\theta_1$ . Vas a montar un modelo $d_2$ (que es diferente de la verdad sobre el terreno $d_1$ : "todos los modelos son erróneos" ) y estimar sus parámetros $\theta_2 \in \Theta_2$ por ejemplo, mediante una estimación de máxima verosimilitud:

$$ \hat{\theta}_2 = argmax_{\theta_2} \ \ p(\{x_i\}|\theta_2,d_2) $$

Si supieras la verdad $d_1$ y $\theta_1$ ¿tendrías necesariamente $p(\{x_i\}|\theta_1,d_1) \geq p(\{x_i\}|\hat{\theta}_2,d_2)$ (es decir, una mayor evidencia de modelo para el modelo de la verdad sobre el terreno)? Pues no. No existe un vínculo formal y sistemático entre las evidencias del modelo para $d_1$ y $d_2$ ya que su proporción va a depender de:

  1. Sus complejidades relativas (es decir, el número de parámetros libres, medido por $|\Theta_1|$ y $|\Theta_2|$ ). Si $|\Theta_2| < |\Theta_1|$ es decir, si $d_2$ es más sencillo que $d_1$ podría no ser capaz de explicar las observaciones y, por tanto, tener una probabilidad baja. Sin embargo, si $|\Theta_1| < |\Theta_2|$ entonces las pruebas del modelo $d_2$ se verá penalizado por su mayor número de parámetros libres. Esto se explica muy bien en el capítulo 28 del siguiente libro de texto:

MacKay, D. J., & Mac Kay, D. J. (2003). Teoría de la información, inferencia y algoritmos de aprendizaje. Cambridge University Press.

  1. Observaciones $\{x_i\}_{1 \leq i \leq N}$ . Si $N$ es pequeño, o si el conjunto $\{x_i\}$ es un valor atípico que no representa la producción media de $d_1$ entonces la evidencia del modelo para $d_1$ será pequeño. Se trata de un caso de no identificabilidad, que analizamos en el siguiente documento:

Gontier, C., & Pfister, J. P. (2020). Identificabilidad de una sinapsis binómica. Frontiers in computational neuroscience, 14, 558477.

También propuse una solución para el caso eran $|\Theta_1| < |\Theta_2|$ en la siguiente pregunta: Prueba formal de la navaja de Occam para modelos anidados

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X