12 votos

Validación cruzada y de regresión logística ordinal

Estoy tratando de entender la validación cruzada para ordinal de regresión logística. El objetivo del juego es para validar el modelo utilizado en un análisis...

Yo en primer lugar, construir un juguete conjunto de datos:

set.seed(1)
N <- 10000
# predictors
x1 <- runif(N)
x2 <- runif(N)
x3 <- runif(N)

# coeffs in the model
a <- c(-2,-1)
x <- -x1+2*x2+x3

# P( y ≤ i ) is given by logit^{-1} ( a[i]+x )
p <- outer(a,x, function(a,x) 1/(1+exp(-a-x)) )

# computing the probabilities of each category
q <- 1 - p[2,]
p[2,] <- p[2,] - p[1,];
p <- rbind(p,q);

# outcome
y <- ordered( apply( p, 2, function(p) which(rmultinom(1,1,p)>0) ) ) 

Ahora, yo encajaba en el modelo utilizando lrm en el paquete rms.

require("rms")
fit <- lrm(y~x1+x2+x3, x=TRUE,y=TRUE)


> fit

Logistic Regression Model

lrm(formula = y ~ x1 + x2 + x3, x = TRUE, y = TRUE)

                      Model Likelihood     Discrimination    Rank Discrim.
                         Ratio Test            Indexes          Indexes   
Obs         10000    LR chi2    1165.46    R2       0.126    C       0.664
 1           2837    d.f.             3    g        0.779    Dxy     0.328
 2           2126    Pr(> chi2) <0.0001    gr       2.178    gamma   0.329
 3           5037                          gp       0.147    tau-a   0.203
max |deriv| 4e-10                          Brier    0.187                 

     Coef    S.E.   Wald Z Pr(>|Z|)
y>=2  2.1048 0.0656  32.06 <0.0001
y>=3  1.0997 0.0630  17.45 <0.0001
x1    0.8157 0.0675  12.09 <0.0001
x2   -1.9790 0.0701 -28.21 <0.0001
x3   -1.0095 0.0687 -14.68 <0.0001

Entiendo la segunda parte de los resultados: los coeficientes de lo que he puesto en el modelo están aquí (es casi perfecto con N = 100000). El signo se invierte porque en mi modelo que utiliza el coeffs para calcular las probabilidades de ser $\le 1$, e $\le 2$, aquí es a la inversa, creo que no hay mucho problema con eso.

Sin embargo , no entiendo la discriminación y el rango de índices de discriminación. Me pueden ayudar?! Algunos consejos?

Las cosas están peor que cuando volvemos a la validación cruzada...

> validate(fit, method="cross")
          index.orig training    test optimism index.corrected  n
Dxy           0.3278   0.3278  0.3290  -0.0012          0.3291 40
R2            0.1260   0.1260  0.1313  -0.0053          0.1313 40
Intercept     0.0000   0.0000 -0.0072   0.0072         -0.0072 40
Slope         1.0000   1.0000  1.0201  -0.0201          1.0201 40
Emax          0.0000   0.0000  0.0056   0.0056          0.0056 40
D             0.1164   0.1165  0.1186  -0.0021          0.1186 40
U            -0.0002  -0.0002 -0.8323   0.8321         -0.8323 40
Q             0.1166   0.1167  0.9509  -0.8342          0.9509 40
B             0.1865   0.1865  0.1867  -0.0001          0.1867 40
g             0.7786   0.7786  0.7928  -0.0142          0.7928 40
gp            0.1472   0.1472  0.1478  -0.0007          0.1478 40

Mmffff? ¿Qué es esto? ¿Cómo debo interpretar esto? La página man da unos explicación, no tengo acceso a este papel... y me siento abrumado por un océano de complejidad. Por favor, ayuda!

11voto

dan90266 Puntos 609

Concentrarse en algunos de los índices de ahora. index.orig es la aparente capacidad predictiva/precisión de la puntuación al evaluar en los datos que se utilizan para ajustar el modelo. index.corrected es el de validación cruzada-versión corregida del mismo índice, es decir, corregido el sobreajuste (de sesgo). Dxy es Somers' $D_{xy}$ rango coeficiente de correlación de - una medida de la pura discriminación. Ver original en papel o no paramétrica de los textos para obtener más detalles. $D_{xy} = 2(C - \frac{1}{2})$ donde $C$ es la generalización de la ROC de la zona (concordancia de probabilidad). Intercept y Slope pertenecen a la curva de calibración en la escala logit. Emax es el máximo estimado de error de calibración usando que la pendiente y la ordenada al origen. B es el Brier, la precisión de la puntuación (combina la discriminación y calibración).

Métodos se describe en mi libro o en las notas del curso en el libro del sitio web: http://biostat.mc.vanderbilt.edu/rms

1voto

FMZ Puntos 152

A tu primera pregunta: son modelos diferentes medidas de rendimiento. Desea que algunos de ellos sean grandes, otras pequeñas. De hecho, de alguna manera están relacionados, así que sugerimos que se centran en uno o dos

A tu segunda pregunta: ¿qué tiene usted en su primera salida R es el modelo de rendimiento en la formación de la muestra. Al hacer la validación por parte de la validación cruzada, obtener esas medidas en múltiples muestras de prueba y su promedio. Esto le dará estimación más realista de cómo su modelo funciona.

HTH

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X