71 votos

Prueba de Wald para la regresión logística

Según tengo entendido, la prueba de Wald en el contexto de la regresión logística se utiliza para determinar si una determinada variable de predicción $X$ es significativo o no. Rechaza la hipótesis nula de que el coeficiente correspondiente sea cero.

La prueba consiste en dividir el valor del coeficiente por el error estándar $\sigma$ .

Lo que me confunde es que $X/\sigma$ también se conoce como puntuación Z e indica la probabilidad de que una determinada observación proceda de la distribución normal (con media cero).

2 votos

3 votos

Sin embargo, tal vez podría ser al revés, ya que la respuesta en este caso está más desarrollada.

117voto

mehturt Puntos 13

Las estimaciones de los coeficientes y los interceptos en la regresión logística (y en cualquier GLM) se encuentran a través de estimación de máxima verosimilitud (MLE). Estas estimaciones se denotan con un sombrero sobre los parámetros, algo así como $\hat{\theta}$ . Nuestro parámetro de interés se denomina $\theta_{0}$ y éste suele ser 0, ya que queremos comprobar si el coeficiente difiere de 0 o no. A partir de la teoría asintótica del MLE, sabemos que la diferencia entre $\hat{\theta}$ y $\theta_{0}$ tendrá una distribución aproximadamente normal con media 0 (los detalles se pueden encontrar en cualquier libro de estadística matemática como el de Larry Wasserman Todas las estadísticas ). Recordemos que los errores estándar no son otra cosa que desviaciones estándar de las estadísticas (Sokal y Rohlf escriben en su libro Biometría : "a estadística es una de las muchas cantidades estadísticas calculadas o estimadas", por ejemplo, la media, la mediana, la desviación estándar, el coeficiente de correlación, el coeficiente de regresión, ...). Dividiendo una distribución normal con media 0 y desviación estándar $\sigma$ por su desviación estándar dará lugar a la distribución normal estándar con media 0 y desviación estándar 1. El estadístico de Wald se define como (por ejemplo, Wasserman (2006): Todas las estadísticas , páginas 153, 214-215): $$ W=\frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) $$ o $$ W^{2}=\frac{(\hat{\beta}-\beta_{0})^2}{\widehat{\operatorname{Var}}(\hat{\beta})}\sim \chi^{2}_{1} $$ La segunda forma surge del hecho de que el cuadrado de una distribución normal estándar es el $\chi^{2}_{1}$ -con 1 grado de libertad (la suma de dos distribuciones normales al cuadrado sería una $\chi^{2}_{2}$ -con 2 grados de libertad y así sucesivamente).

Como el parámetro de interés suele ser 0 (es decir $\beta_{0}=0$ ), el estadístico de Wald se simplifica a $$ W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) $$ Que es lo que has descrito: La estimación del coeficiente dividida por su error estándar.


¿Cuándo es un $z$ y cuando un $t$ ¿valor utilizado?

La elección entre un $z$ -o un $t$ -El valor depende de cómo se haya calculado el error estándar de los coeficientes. Dado que el estadístico de Wald se distribuye asintóticamente como una distribución normal estándar, podemos utilizar el $z$ -para calcular la $p$ -valor. Cuando, además de los coeficientes, tenemos que estimar también la varianza residual, a $t$ -se utiliza en lugar del valor $z$ -valor. En los mínimos cuadrados ordinarios (OLS, regresión lineal normal), la matriz de varianza-covarianza de los coeficientes es $\operatorname{Var}[\hat{\beta}|X]=\sigma^2(X'X)^{-1}$ donde $\sigma^2$ es la varianza de los residuos (que es desconocida y tiene que ser estimada a partir de los datos) y $X$ es el matriz de diseño . En OLS, los errores estándar de los coeficientes son las raíces cuadradas de los elementos diagonales de la matriz de varianza-covarianza. Porque no sabemos $\sigma^2$ tenemos que sustituirlo por su estimación $\hat{\sigma}^{2}=s^2$ Así que..: $\widehat{\operatorname{se}}(\hat{\beta_{j}})=\sqrt{s^2(X'X)_{jj}^{-1}}$ . Esa es la cuestión: Como tenemos que estimar la varianza de los residuos para calcular el error estándar de los coeficientes, necesitamos utilizar un $t$ -valor y el $t$ -distribución.

En la regresión logística (y poisson), la varianza de los residuos está relacionada con la media. Si $Y\sim Bin(n, p)$ la media es $E(Y)=np$ y la varianza es $\operatorname{Var}(Y)=np(1-p)$ por lo que la varianza y la media están relacionadas. En la regresión logística y de poisson, pero no en la regresión con errores gaussianos, conocemos la varianza esperada y no tenemos que estimarla por separado. El parámetro de dispersión $\phi$ indica si tenemos más o menos que la varianza esperada. Si $\phi=1$ esto significa que observamos la cantidad de varianza esperada, mientras que $\phi<1$ significa que tenemos menos de la varianza esperada (lo que se llama subdispersión) y $\phi>1$ significa que tenemos una varianza adicional a la esperada (llamada sobredispersión). El parámetro de dispersión en la regresión logística y de poisson se fija en 1, lo que significa que podemos utilizar el $z$ -score. El parámetro de dispersión . En otros tipos de regresión, como la regresión lineal normal, tenemos que estimar la varianza residual y, por tanto, un $t$ -se utiliza para calcular el $p$ -valores. En R Mira estos dos ejemplos:

Regresión logística

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

Obsérvese que el parámetro de dispersión se fija en 1 y, por tanto, obtenemos $z$ -valores.


Regresión lineal normal (OLS)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

En este caso, tenemos que estimar la varianza residual (denominada "error estándar residual") y, por tanto, utilizamos $t$ -en lugar de $z$ -valores. Por supuesto, en muestras grandes, el $t$ -se aproxima a la distribución normal y la diferencia no importa.

Otro post relacionado se puede encontrar aquí .

1 votos

Muchas gracias por este bonito post que responde a todas mis preguntas.

1 votos

Así que, prácticamente, con respecto a la primera parte de su excelente respuesta: Si por alguna razón tuviera como salida el odds ratio y el estadístico de Wald, podría entonces calcular el error estándar a partir de estos como SE = (1/Estadística de Wald)*ln(OR) ¿Es esto correcto? Gracias.

1 votos

@SanderW.vanderLaan Gracias por su comentario. Sí, creo que es correcto. Si realizas una regresión logística, el estadístico Wald será el valor z.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X