¿Un modelo mal especificado tiene siempre un valor de probabilidad más bajo que el modelo correcto?

Question

¿Un modelo mal especificado tiene siempre un valor de probabilidad más bajo que el modelo correcto?

Preguntado el 29 de Septiembre, 2022: Cuando se hizo la pregunta
66 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Supongamos que la verdadera DGP es $$ x_i \sim d_1(\theta_1), \quad i=1,\ldots,N $$ donde $d_1$ es una distribución de probabilidad con parámetro(s) $\theta_1$ , pero asumo erróneamente $$ x_i \sim d_2(\theta_2). $$ Ahora supongamos que hago una estimación (numérica) de máxima verosimilitud de $d_2$ . Obviamente no puedo recuperar $\theta_2$ consistentemente, ya que el supuesto distribucional es erróneo, pero supongamos que mi estimador ML converge a algo constante $$ \lim_{N \rightarrow \infty} \hat{\theta}_2 = c \neq \theta_2. $$ Ahora mi pregunta es, ¿se cumple que (para todas las distribuciones de probabilidad posibles) $$ p_{d_1}(\theta_1) \geq p_{d_2}(c), $$ donde $p$ denotan las respectivas funciones de densidad de probabilidad?

Preguntado el 29 de Septiembre, 2022 por mahdieh

Answer 1

1 Respuestas

Answer 2

3voto

asdfghjkl Puntos 1

Voy a reformular ligeramente su pregunta: suponemos que tiene $N$ muestras $\{x_i\}_{1 \leq i \leq N}$ que se generaron a partir de un modelo $d_1$ con parámetros $\theta_1 \in \Theta_1$ (donde $\Theta_1$ es el conjunto de parámetros posibles para $d_1$ ).

No conoces ni el modelo de la verdad sobre el terreno $d_1$ ni sus parámetros $\theta_1$ . Vas a montar un modelo $d_2$ (que es diferente de la verdad sobre el terreno $d_1$ : "todos los modelos son erróneos" ) y estimar sus parámetros $\theta_2 \in \Theta_2$ por ejemplo, mediante una estimación de máxima verosimilitud:

$$ \hat{\theta}_2 = argmax_{\theta_2} \ \ p(\{x_i\}|\theta_2,d_2) $$

Si supieras la verdad $d_1$ y $\theta_1$ ¿tendrías necesariamente $p(\{x_i\}|\theta_1,d_1) \geq p(\{x_i\}|\hat{\theta}_2,d_2)$ (es decir, una mayor evidencia de modelo para el modelo de la verdad sobre el terreno)? Pues no. No existe un vínculo formal y sistemático entre las evidencias del modelo para $d_1$ y $d_2$ ya que su proporción va a depender de:

Sus complejidades relativas (es decir, el número de parámetros libres, medido por $|\Theta_1|$ y $|\Theta_2|$ ). Si $|\Theta_2| < |\Theta_1|$ es decir, si $d_2$ es más sencillo que $d_1$ podría no ser capaz de explicar las observaciones y, por tanto, tener una probabilidad baja. Sin embargo, si $|\Theta_1| < |\Theta_2|$ entonces las pruebas del modelo $d_2$ se verá penalizado por su mayor número de parámetros libres. Esto se explica muy bien en el capítulo 28 del siguiente libro de texto:

MacKay, D. J., & Mac Kay, D. J. (2003). Teoría de la información, inferencia y algoritmos de aprendizaje. Cambridge University Press.

Observaciones $\{x_i\}_{1 \leq i \leq N}$ . Si $N$ es pequeño, o si el conjunto $\{x_i\}$ es un valor atípico que no representa la producción media de $d_1$ entonces la evidencia del modelo para $d_1$ será pequeño. Se trata de un caso de no identificabilidad, que analizamos en el siguiente documento:

Gontier, C., & Pfister, J. P. (2020). Identificabilidad de una sinapsis binómica. Frontiers in computational neuroscience, 14, 558477.

También propuse una solución para el caso eran $|\Theta_1| < |\Theta_2|$ en la siguiente pregunta: Prueba formal de la navaja de Occam para modelos anidados

Respondido el 29 de Septiembre, 2022 por asdfghjkl (1 Puntos )

¿Un modelo mal especificado tiene siempre un valor de probabilidad más bajo que el modelo correcto?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Un modelo mal especificado tiene siempre un valor de probabilidad más bajo que el modelo correcto?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: