5 votos

Anova sobre la linealidad de las regresiones logísticas

Intento averiguar si mis predictores numéricos tienen una relación lineal con el logit de mi regresión logística. He intentado utilizar el ajuste lrm en el paquete rms donde he utilizado 3 nudos spline cúbico en todos los predictores numéricos así:

> fit <- lrm(y ~ rcs(x1,3)+rcs(x2,3)+.....)

Después utilicé el anova en el ajuste lrm. La pregunta principal es ¿cómo utilizo el resultado en anova(fit)?

Según tengo entendido, las estadísticas de Wald son simplemente los coeficientes asociados elevados al cuadrado y divididos por su se. Pero, ¿qué ocurre con los estadísticos de los términos no lineales? ¿Son los estadísticos de Wald de los coeficientes de los predictores al cuadrado?

Si ninguno de los estadísticos es significativo, ¿puedo concluir que no hay efecto cuadrático de mis predictores?

7voto

dan90266 Puntos 609

Todas ellas son pruebas de Wald, que suponen que la distribución muestral del vector de $\hat{\beta}$ tiene una distribución normal multivariante. Sólo en el caso especial de que se esté probando un único parámetro, el Wald $\chi^2$ es igual al cuadrado de una prueba de Wald $z$ -estadística; aquí $z = \frac{\hat{\beta_{j}}}{se}$ para un único coeficiente $\beta_j$ . La prueba de Wald general es una "prueba de trozos" que implica coeficientes múltiples, y se puede generalizar aún más considerando un contraste general con una hipótesis nula de $H_{0}: C\beta = 0$ . Algunas de las cosas que podrían estar en los "trozos" son

  • términos no lineales para obtener una prueba de linealidad
  • términos no lineales + término lineal para obtener una prueba de planitud (asociación)
  • todos los términos que implican un predictor, ya sean efectos principales o efectos de interacción, para obtener una prueba general de asociación como, por ejemplo, si la edad tiene una asociación con $Y$ para ambos sexos

Tenga en cuenta que si una prueba no es significativa, no es apropiado eliminar los términos probados del modelo, ya que esto causa sesgo y, especialmente, hace que los intervalos de confianza sean demasiado cortos y $p$ -valores demasiado pequeños.

La R rms paquete anova facilita ver exactamente qué coeficientes se están probando en cualquier línea de la tabla ANOVA. Desplácese a la derecha para ver esta información en el extremo derecho de cada tabla. Para OLS utilizamos $F$ en lugar de $\chi^2$ . El intercepto del modelo corresponde a un subíndice de $\beta$ de cero.

require(rms)
set.seed(123)
age <- rnorm(500, 50, 15)
treat <- factor(sample(c('a','b','c'), 500, TRUE))
bp  <- rnorm(500, 120, 10)
y   <- ifelse(treat=='a', (age-50)*.05, abs(age-50)*.08) + 3*(treat=='c') +
   pmax(bp, 100)*.09 + rnorm(500)

f   <- ols(y ~ treat*lsp(age,50) + rcs(bp,4))
Function(f)   # show algebraic form of fitted model.  Note rcs
              # is simplified so some redundant betas are added
function(treat = NA,age = NA,bp = NA) {-1.5357446+5.4522476*(treat=="b")+7.6742854*(treat=="c")+0.015671819*age+0.049487194*pmax(age-50,0)+0.095699259* bp-4.3486306e-05*pmax(bp-103.28133,0)^3+0.00020843892*pmax(bp-116.59859,0)^3-0.0002067844*pmax(bp-123.63285,0)^3+4.1831786e-05*pmax(bp-137.52664,0)^3+(treat=="b")*(-0.10304059*age+0.11755658*pmax(age-50,0))+(treat=="c")*(-0.084946042*age+0.085581901*pmax(age-50,0)) }

an <- anova(f); options(digits=3)
print(an, 'subscripts')

               Analysis of Variance          Response: y 

 Factor                                     d.f. Partial SS MS      F      P      Tested     
 treat  (Factor+Higher Order Factors)         6  1421.70    236.950 241.73 <.0001 1-2,8-11   
  All Interactions                            4    61.55     15.387  15.70 <.0001 8-11       
 age  (Factor+Higher Order Factors)           6   222.01     37.001  37.75 <.0001 3-4,8-11   
  All Interactions                            4    61.55     15.387  15.70 <.0001 8-11       
  Nonlinear (Factor+Higher Order Factors)     3   156.88     52.294  53.35 <.0001 4,10-11    
 bp                                           3   344.33    114.778 117.09 <.0001 5-7        
  Nonlinear                                   2     1.41      0.706   0.72 0.487  6-7        
 treat * age  (Factor+Higher Order Factors)   4    61.55     15.387  15.70 <.0001 8-11       
  Nonlinear                                   2    22.87     11.436  11.67 <.0001 10-11      
  Nonlinear Interaction : f(A,B) vs. AB       2    22.87     11.436  11.67 <.0001 10-11      
 TOTAL NONLINEAR                              5   157.75     31.550  32.19 <.0001 4,6-7,10-11
 TOTAL NONLINEAR + INTERACTION                7   194.53     27.790  28.35 <.0001 4,6-11     
 REGRESSION                                  11  1861.11    169.192 172.61 <.0001 1-11       
 ERROR                                      488   478.35      0.980                          

Subscripts correspond to:
 [1] treat=b        treat=c        age            age'           bp             bp'            bp''          
 [8] treat=b * age  treat=c * age  treat=b * age' treat=c * age'

print(an, 'dots')

                Analysis of Variance          Response: y 

 Factor                                     d.f. Partial SS MS      F      P      Tested     
 treat  (Factor+Higher Order Factors)         6  1421.70    236.950 241.73 <.0001 ..     ....
  All Interactions                            4    61.55     15.387  15.70 <.0001        ....
 age  (Factor+Higher Order Factors)           6   222.01     37.001  37.75 <.0001   ..   ....
  All Interactions                            4    61.55     15.387  15.70 <.0001        ....
  Nonlinear (Factor+Higher Order Factors)     3   156.88     52.294  53.35 <.0001    .     ..
 bp                                           3   344.33    114.778 117.09 <.0001     ...    
  Nonlinear                                   2     1.41      0.706   0.72 0.487       ..    
 treat * age  (Factor+Higher Order Factors)   4    61.55     15.387  15.70 <.0001        ....
  Nonlinear                                   2    22.87     11.436  11.67 <.0001          ..
  Nonlinear Interaction : f(A,B) vs. AB       2    22.87     11.436  11.67 <.0001          ..
 TOTAL NONLINEAR                              5   157.75     31.550  32.19 <.0001    . ..  ..
 TOTAL NONLINEAR + INTERACTION                7   194.53     27.790  28.35 <.0001    . ......
 REGRESSION                                  11  1861.11    169.192 172.61 <.0001 ...........
 ERROR                                      488   478.35      0.980

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X