Prueba de Wald para la regresión logística

Question

Prueba de Wald para la regresión logística

Preguntado el 26 de Mayo, 2013: Cuando se hizo la pregunta
28063 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Según tengo entendido, la prueba de Wald en el contexto de la regresión logística se utiliza para determinar si una determinada variable de predicción $X$ es significativo o no. Rechaza la hipótesis nula de que el coeficiente correspondiente sea cero.

La prueba consiste en dividir el valor del coeficiente por el error estándar $\sigma$ .

Lo que me confunde es que $X/\sigma$ también se conoce como puntuación Z e indica la probabilidad de que una determinada observación proceda de la distribución normal (con media cero).

Preguntado el 26 de Mayo, 2013 por Sequels

2 votos

Posible duplicado de Prueba de Wald en la regresión (OLS y GLM): distribución t vs. z

Comentado el 27 de Noviembre, 2017 por ssn

3 votos

Sin embargo, tal vez podría ser al revés, ya que la respuesta en este caso está más desarrollada.

Comentado el 27 de Noviembre, 2017 por ssn

Answer 1

1 Respuestas

Answer 2

117voto

mehturt Puntos 13

Las estimaciones de los coeficientes y los interceptos en la regresión logística (y en cualquier GLM) se encuentran a través de estimación de máxima verosimilitud (MLE). Estas estimaciones se denotan con un sombrero sobre los parámetros, algo así como $\hat{\theta}$ . Nuestro parámetro de interés se denomina $\theta_{0}$ y éste suele ser 0, ya que queremos comprobar si el coeficiente difiere de 0 o no. A partir de la teoría asintótica del MLE, sabemos que la diferencia entre $\hat{\theta}$ y $\theta_{0}$ tendrá una distribución aproximadamente normal con media 0 (los detalles se pueden encontrar en cualquier libro de estadística matemática como el de Larry Wasserman Todas las estadísticas ). Recordemos que los errores estándar no son otra cosa que desviaciones estándar de las estadísticas (Sokal y Rohlf escriben en su libro Biometría : "a estadística es una de las muchas cantidades estadísticas calculadas o estimadas", por ejemplo, la media, la mediana, la desviación estándar, el coeficiente de correlación, el coeficiente de regresión, ...). Dividiendo una distribución normal con media 0 y desviación estándar $\sigma$ por su desviación estándar dará lugar a la distribución normal estándar con media 0 y desviación estándar 1. El estadístico de Wald se define como (por ejemplo, Wasserman (2006): Todas las estadísticas , páginas 153, 214-215): $$ W=\frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) $$ o $$ W^{2}=\frac{(\hat{\beta}-\beta_{0})^2}{\widehat{\operatorname{Var}}(\hat{\beta})}\sim \chi^{2}_{1} $$ La segunda forma surge del hecho de que el cuadrado de una distribución normal estándar es el $\chi^{2}_{1}$ -con 1 grado de libertad (la suma de dos distribuciones normales al cuadrado sería una $\chi^{2}_{2}$ -con 2 grados de libertad y así sucesivamente).

Como el parámetro de interés suele ser 0 (es decir $\beta_{0}=0$ ), el estadístico de Wald se simplifica a $$ W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) $$ Que es lo que has descrito: La estimación del coeficiente dividida por su error estándar.

¿Cuándo es un $z$ y cuando un $t$ ¿valor utilizado?

La elección entre un $z$ -o un $t$ -El valor depende de cómo se haya calculado el error estándar de los coeficientes. Dado que el estadístico de Wald se distribuye asintóticamente como una distribución normal estándar, podemos utilizar el $z$ -para calcular la $p$ -valor. Cuando, además de los coeficientes, tenemos que estimar también la varianza residual, a $t$ -se utiliza en lugar del valor $z$ -valor. En los mínimos cuadrados ordinarios (OLS, regresión lineal normal), la matriz de varianza-covarianza de los coeficientes es $\operatorname{Var}[\hat{\beta}|X]=\sigma^2(X'X)^{-1}$ donde $\sigma^2$ es la varianza de los residuos (que es desconocida y tiene que ser estimada a partir de los datos) y $X$ es el matriz de diseño . En OLS, los errores estándar de los coeficientes son las raíces cuadradas de los elementos diagonales de la matriz de varianza-covarianza. Porque no sabemos $\sigma^2$ tenemos que sustituirlo por su estimación $\hat{\sigma}^{2}=s^2$ Así que..: $\widehat{\operatorname{se}}(\hat{\beta_{j}})=\sqrt{s^2(X'X)_{jj}^{-1}}$ . Esa es la cuestión: Como tenemos que estimar la varianza de los residuos para calcular el error estándar de los coeficientes, necesitamos utilizar un $t$ -valor y el $t$ -distribución.

En la regresión logística (y poisson), la varianza de los residuos está relacionada con la media. Si $Y\sim Bin(n, p)$ la media es $E(Y)=np$ y la varianza es $\operatorname{Var}(Y)=np(1-p)$ por lo que la varianza y la media están relacionadas. En la regresión logística y de poisson, pero no en la regresión con errores gaussianos, conocemos la varianza esperada y no tenemos que estimarla por separado. El parámetro de dispersión $\phi$ indica si tenemos más o menos que la varianza esperada. Si $\phi=1$ esto significa que observamos la cantidad de varianza esperada, mientras que $\phi<1$ significa que tenemos menos de la varianza esperada (lo que se llama subdispersión) y $\phi>1$ significa que tenemos una varianza adicional a la esperada (llamada sobredispersión). El parámetro de dispersión en la regresión logística y de poisson se fija en 1, lo que significa que podemos utilizar el $z$ -score. El parámetro de dispersión . En otros tipos de regresión, como la regresión lineal normal, tenemos que estimar la varianza residual y, por tanto, un $t$ -se utiliza para calcular el $p$ -valores. En R Mira estos dos ejemplos:

Regresión logística

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

Obsérvese que el parámetro de dispersión se fija en 1 y, por tanto, obtenemos $z$ -valores.

Regresión lineal normal (OLS)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

En este caso, tenemos que estimar la varianza residual (denominada "error estándar residual") y, por tanto, utilizamos $t$ -en lugar de $z$ -valores. Por supuesto, en muestras grandes, el $t$ -se aproxima a la distribución normal y la diferencia no importa.

Otro post relacionado se puede encontrar aquí .

Respondido el 26 de Mayo, 2013 por mehturt (13 Puntos )

1 votos

Muchas gracias por este bonito post que responde a todas mis preguntas.

Comentado el 26 de Mayo, 2013 por Sequels

1 votos

Así que, prácticamente, con respecto a la primera parte de su excelente respuesta: Si por alguna razón tuviera como salida el odds ratio y el estadístico de Wald, podría entonces calcular el error estándar a partir de estos como SE = (1/Estadística de Wald)*ln(OR) ¿Es esto correcto? Gracias.

Comentado el 10 de Agosto, 2015 por Auguste

1 votos

@SanderW.vanderLaan Gracias por su comentario. Sí, creo que es correcto. Si realizas una regresión logística, el estadístico Wald será el valor z.

Comentado el 11 de Agosto, 2015 por mehturt

Mostrar 6 comentarios más

Prueba de Wald para la regresión logística

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Prueba de Wald para la regresión logística

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: