9 votos

¿Se puede calcular una probabilidad logarítmica de -2 con un solo modelo?

Estoy utilizando el glmfit en MATLAB. La función sólo devuelve la desviación y no el logaritmo de la probabilidad. Entiendo que la desviación es básicamente el doble de la diferencia entre las probabilidades logarítmicas de los modelos, pero lo que no entiendo es que sólo estoy usando glmfit para crear un modelo, pero de alguna manera estoy obteniendo una desviación.

  • ¿El cálculo de la probabilidad logarítmica -2 no requiere 2 modelos?
  • ¿Cómo se puede analizar la desviación cuando sólo hay un modelo?

Otra cuestión que me planteo es decir que tengo dos modelos y que los comparo mediante la prueba de logaritmo de probabilidad. La hipótesis nula sería el primer modelo y la hipótesis alternativa sería el segundo modelo. Después de obtener el estadístico de la prueba de log-verosimilitud, ¿lo compararía con la cdf de chi-cuadrado para determinar el valor p? ¿Estoy en lo cierto que si es menor que el nivel alfa rechazaría la nula y si es mayor no rechazaría la nula?

2 votos

A su primera pregunta. Sí, hay dos modelos. El otro es un modelo perfecto con probabilidad logarítmica = 0. De este modo, su desviación es igual a la probabilidad logarítmica de su modelo.

1 votos

¿sería modelo perfecto - mi modelo, o mi modelo - modelo perfecto? ¿Y dividirlo por -2 me daría realmente la probabilidad logarítmica del modelo y podría usarla para hacer la prueba de probabilidad logarítmica?

13voto

terryk2 Puntos 81

El término estadístico "desviación" se utiliza demasiado. La mayoría de las veces, los programas devuelven la desviación $$ D(y) = -2 \log{\{p(y | \hat{\theta})\}},$$ donde $\hat{\theta}$ es su(s) parámetro(s) estimado(s) a partir del ajuste del modelo y $y$ es algún suceso potencialmente observado/observable de la cantidad aleatoria en cuestión.

La desviación más común a la que te refieres trataría la desviación anterior como una función de dos variables, tanto de los datos como de los parámetros ajustados: $$ D(y,\hat{\theta}) = -2\log{\{p(y|\hat{\theta})\}}$$ y así si tuvieras uno $y$ sino dos valores de parámetros ajustados que compiten entre sí, $\hat{\theta}_{1}$ y $\hat{\theta}_{2}$ Entonces obtendrías la desviación que mencionas de $$-2(\log{\{p(y|\hat{\theta}_{1})\}} - \log{\{p(y|\hat{\theta}_{2})\}}). $$ Puedes leer sobre la función de Matlab que has mencionado, glmfit() , enlazado aquí . Un debate más fructífero, aunque más breve, sobre la desviación está relacionado con aquí .

La estadística de desviación supone implícitamente dos modelos: el primero es su modelo ajustado, devuelto por glmfit() Llamamos a este vector de parámetros $\hat{\theta}_{1}$ . El segundo es el "modelo completo" (también llamado "modelo saturado"), que es un modelo en el que hay una variable libre para cada punto de datos, llámese vector de parámetros $\hat{\theta}_{s}$ . Tener tantas variables libres es obviamente una estupidez, pero permite ajustarse a esos datos con exactitud.

Así pues, el estadístico de desviación se calcula como la diferencia entre la probabilidad logarítmica calculada en el modelo ajustado y el modelo saturado. Sea $Y=\{y_{1}, y_{2}, \cdots, y_{N}\}$ sea la colección de los N puntos de datos. Entonces:

$$DEV(\hat{\theta}_{1},Y) = -2\biggl[\log{p(Y|\hat{\theta}_{1})} - \log{p(Y|\hat{\theta}_{s})} \biggr]. $$ Los términos anteriores se expandirán en sumas sobre los puntos de datos individuales $y_{i}$ por la suposición de independencia. Si desea utilizar este cálculo para calcular la log-verosimilitud del modelo, entonces tendrá que calcular primero la log-verosimilitud del modelo saturado. Aquí hay un enlace que explica algunas ideas para calcular esto... pero el problema es que en cualquier caso, vas a necesitar escribir una función que calcule la log-verosimilitud para tu tipo de datos, y en ese caso probablemente sea mejor crear tu propia función que calcule la log-verosimilitud tú mismo, en lugar de sacarla de un cálculo de desviación.

Véase el capítulo 6 de Análisis bayesiano de datos para un buen debate sobre la desviación.

En cuanto a tu segundo punto sobre la estadística de la prueba de probabilidad, sí, parece que básicamente sabes lo que hay que hacer. Pero en muchos casos, considerarás que la hipótesis nula es algo que el conocimiento experto y externo te permite adivinar de antemano (como que algún coeficiente sea igual a cero). No es necesariamente algo que surge como resultado de hacer el ajuste del modelo.

0 votos

¡Gracias EMS! ¡Me has ayudado mucho a entender lo que es la desviación! Todavía tengo algunas preguntas, pero no estoy seguro de cómo hacerlas. Cuando sepa cómo redactarlas, responderé aquí.

0 votos

Bien, primera pregunta, ¿cómo puedo extraer la probabilidad logarítmica del modelo que he creado a partir de la desviación, teniendo en cuenta que matlab sólo me da la desviación? Además, (sé que esto me hace parecer bastante estúpido, pero) para p(y |ˆ2) sería la probabilidad de obtener un determinado valor de y del conjunto de datos de resultado o las variables independientes dado el parámetro ajustado

0 votos

Parece que me he equivocado con el método de Matlab. Calcula la desviación mirando dos modelos, y he editado la respuesta anterior para reflejar esto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X