Las estimaciones de los coeficientes y los interceptos en la regresión logística (y en cualquier GLM) se encuentran a través de estimación de máxima verosimilitud (MLE). Estas estimaciones se denotan con un sombrero sobre los parámetros, algo así como $\hat{\theta}$ . Nuestro parámetro de interés se denomina $\theta_{0}$ y éste suele ser 0, ya que queremos comprobar si el coeficiente difiere de 0 o no. A partir de la teoría asintótica del MLE, sabemos que la diferencia entre $\hat{\theta}$ y $\theta_{0}$ tendrá una distribución aproximadamente normal con media 0 (los detalles se pueden encontrar en cualquier libro de estadística matemática como el de Larry Wasserman Todas las estadísticas ). Recordemos que los errores estándar no son otra cosa que desviaciones estándar de las estadísticas (Sokal y Rohlf escriben en su libro Biometría : "a estadística es una de las muchas cantidades estadísticas calculadas o estimadas", por ejemplo, la media, la mediana, la desviación estándar, el coeficiente de correlación, el coeficiente de regresión, ...). Dividiendo una distribución normal con media 0 y desviación estándar $\sigma$ por su desviación estándar dará lugar a la distribución normal estándar con media 0 y desviación estándar 1. El estadístico de Wald se define como (por ejemplo, Wasserman (2006): Todas las estadísticas , páginas 153, 214-215): $$ W=\frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) $$ o $$ W^{2}=\frac{(\hat{\beta}-\beta_{0})^2}{\widehat{\operatorname{Var}}(\hat{\beta})}\sim \chi^{2}_{1} $$ La segunda forma surge del hecho de que el cuadrado de una distribución normal estándar es el $\chi^{2}_{1}$ -con 1 grado de libertad (la suma de dos distribuciones normales al cuadrado sería una $\chi^{2}_{2}$ -con 2 grados de libertad y así sucesivamente).
Como el parámetro de interés suele ser 0 (es decir $\beta_{0}=0$ ), el estadístico de Wald se simplifica a $$ W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) $$ Que es lo que has descrito: La estimación del coeficiente dividida por su error estándar.
¿Cuándo es un $z$ y cuando un $t$ ¿valor utilizado?
La elección entre un $z$ -o un $t$ -El valor depende de cómo se haya calculado el error estándar de los coeficientes. Dado que el estadístico de Wald se distribuye asintóticamente como una distribución normal estándar, podemos utilizar el $z$ -para calcular la $p$ -valor. Cuando, además de los coeficientes, tenemos que estimar también la varianza residual, a $t$ -se utiliza en lugar del valor $z$ -valor. En los mínimos cuadrados ordinarios (OLS, regresión lineal normal), la matriz de varianza-covarianza de los coeficientes es $\operatorname{Var}[\hat{\beta}|X]=\sigma^2(X'X)^{-1}$ donde $\sigma^2$ es la varianza de los residuos (que es desconocida y tiene que ser estimada a partir de los datos) y $X$ es el matriz de diseño . En OLS, los errores estándar de los coeficientes son las raíces cuadradas de los elementos diagonales de la matriz de varianza-covarianza. Porque no sabemos $\sigma^2$ tenemos que sustituirlo por su estimación $\hat{\sigma}^{2}=s^2$ Así que..: $\widehat{\operatorname{se}}(\hat{\beta_{j}})=\sqrt{s^2(X'X)_{jj}^{-1}}$ . Esa es la cuestión: Como tenemos que estimar la varianza de los residuos para calcular el error estándar de los coeficientes, necesitamos utilizar un $t$ -valor y el $t$ -distribución.
En la regresión logística (y poisson), la varianza de los residuos está relacionada con la media. Si $Y\sim Bin(n, p)$ la media es $E(Y)=np$ y la varianza es $\operatorname{Var}(Y)=np(1-p)$ por lo que la varianza y la media están relacionadas. En la regresión logística y de poisson, pero no en la regresión con errores gaussianos, conocemos la varianza esperada y no tenemos que estimarla por separado. El parámetro de dispersión $\phi$ indica si tenemos más o menos que la varianza esperada. Si $\phi=1$ esto significa que observamos la cantidad de varianza esperada, mientras que $\phi<1$ significa que tenemos menos de la varianza esperada (lo que se llama subdispersión) y $\phi>1$ significa que tenemos una varianza adicional a la esperada (llamada sobredispersión). El parámetro de dispersión en la regresión logística y de poisson se fija en 1, lo que significa que podemos utilizar el $z$ -score. El parámetro de dispersión . En otros tipos de regresión, como la regresión lineal normal, tenemos que estimar la varianza residual y, por tanto, un $t$ -se utiliza para calcular el $p$ -valores. En R
Mira estos dos ejemplos:
Regresión logística
mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
mydata$rank <- factor(mydata$rank)
my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")
summary(my.mod)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.989979 1.139951 -3.500 0.000465 ***
gre 0.002264 0.001094 2.070 0.038465 *
gpa 0.804038 0.331819 2.423 0.015388 *
rank2 -0.675443 0.316490 -2.134 0.032829 *
rank3 -1.340204 0.345306 -3.881 0.000104 ***
rank4 -1.551464 0.417832 -3.713 0.000205 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Obsérvese que el parámetro de dispersión se fija en 1 y, por tanto, obtenemos $z$ -valores.
Regresión lineal normal (OLS)
summary(lm(Fertility~., data=swiss))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 66.91518 10.70604 6.250 1.91e-07 ***
Agriculture -0.17211 0.07030 -2.448 0.01873 *
Examination -0.25801 0.25388 -1.016 0.31546
Education -0.87094 0.18303 -4.758 2.43e-05 ***
Catholic 0.10412 0.03526 2.953 0.00519 **
Infant.Mortality 1.07705 0.38172 2.822 0.00734 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.165 on 41 degrees of freedom
En este caso, tenemos que estimar la varianza residual (denominada "error estándar residual") y, por tanto, utilizamos $t$ -en lugar de $z$ -valores. Por supuesto, en muestras grandes, el $t$ -se aproxima a la distribución normal y la diferencia no importa.
Otro post relacionado se puede encontrar aquí .
2 votos
Posible duplicado de Prueba de Wald en la regresión (OLS y GLM): distribución t vs. z
3 votos
Sin embargo, tal vez podría ser al revés, ya que la respuesta en este caso está más desarrollada.