21 votos

Explicar el ajuste del modelo, en inglés

La lectura acerca de los métodos y resultados de análisis estadístico, especialmente en epidemiología, estoy muy a menudo oímos acerca de ajuste o control de los modelos.

¿Cómo explicar a un no estadístico, el propósito de eso? ¿Cómo interpretar los resultados después de controlar ciertas variables?

Pequeño paseo-a través de Stata o R, o un puntero a uno en línea, sería una verdadera joya.

40voto

Berek Bryan Puntos 349

Más fáciles de explicar por medio de un ejemplo:

Imaginar estudio encuentra que las personas que vieron la final de la Copa Mundial fueron más probabilidades de sufrir un ataque cardíaco durante el partido o en las siguientes 24 horas que aquellos que no vieron. ¿El gobierno debería prohibir el fútbol de la TV? Pero los hombres son más propensos a ver el fútbol de las mujeres, y los hombres son también más propensos a tener un ataque al corazón que las mujeres. Por lo que la asociación entre el fútbol de observación y ataques al corazón puede ser explicado por un tercer factor , tales como el sexo que afecta a ambos. (Sociólogos de distinguir aquí entre el género, una construcción cultural que está asociado con el fútbol a ver, y el sexo, una categoría biológica que se asocia con infarto de incidencia, pero los dos son cleary muy fuertemente correlacionados, así que voy a ignorar que la distinción por motivos de simplicidad.)

Los estadísticos, y especialmente los epidemiólogos, llame a un tercer factor un factor de confusión, y el fenómeno de confusión. La forma más obvia de eliminar el problema es examinar la asociación entre el fútbol de observación y ataque al corazón incidencia en hombres y mujeres por separado, o en la jerga, para estratificar por sexo. Si nos encontramos con que la asociación (si aún existe) es similar en ambos sexos, luego podemos elegir para combinar las dos estimaciones de la asociación a través de los dos sexos. La estimación resultante de la asociación entre el fútbol de observación y ataque al corazón incidencia se dice entonces que ser ajustado o controlado por el sexo.

Probablemente también el deseo de controlar por otros factores de la misma manera. La edad es otro de los obvios (epidemiólogos, ya sea estratificar o ajuste/control de casi todos los de la asociación por edad y sexo). Clase Socio-económica es probablemente otro. Los demás pueden obtener más complicado, por ejemplo, si se ajusta por el consumo de cerveza mientras ve el partido? Tal vez sí, si estamos interesados en el efecto de la tensión de ver el partido él solo; pero tal vez no, si se está considerando la prohibición de emisión de la Copa Mundial de fútbol y que también reduciría el consumo de cerveza. Si la variable es un factor de confusión o no, depende, precisamente, cuál es la pregunta que queremos tratar, y esto puede requerir de mucho cuidado pensamiento y llegar a ser muy complicado y aún controvertido.

Claramente entonces, es posible que desee ajustar/control de varios factores, algunos de los cuales pueden ser medidos en varias categorías (por ejemplo, clase social), mientras que otros pueden ser continuas (por ejemplo, la edad). Podríamos afrontar el continuo de la división de a (edad)grupos, convirtiéndose en categórica. Así que decir que tenemos 2 sexos, 5 clase social de los grupos y 7 grupos de edad. Ahora podemos ver la asociación entre el fútbol de observación y ataque al corazón incidencia en 2×5×7 = 70 estratos. Pero si nuestro estudio es bastante pequeño, por lo que algunos de los estratos que contienen muy pocas personas, vamos a tener problemas con este enfoque. Y, en la práctica, es posible que desee ajustar para una docena o más variables. Una forma alternativa de ajuste/control de las variables que es particularmente útil cuando hay muchos de ellos lo proporciona el análisis de regresión múltiple con variables dependientes, a veces conocido como multivariable de regresión análisis. (Hay diferentes tipos de modelos de regresión en función del tipo de variable de resultado: menos de cuadrados de la regresión logística la regresión de riesgos proporcionales (Cox) de regresión...). En estudios observacionales, en oposición a los experimentos, que casi siempre se desea ajustar por potenciales factores de confusión, por lo que en la práctica el ajuste/control de factores de confusión se hace a menudo por análisis de regresión, a pesar de que hay otras alternativas muy a pesar de que, como la normalización, la ponderación de la puntuación de la propensión...

13voto

Magnus Lindhe Puntos 2391

OneStop explicó bastante bien, solo te doy un ejemplo simple de R con datos compuestos. Decir x es y y es altura, y queremos saber si hay una diferencia entre machos y hembras:

set.seed(69)
x <- rep(1:10,2)
y <- c(jitter(1:10, factor=4), (jitter(1:10, factor=4)+2))
sex <- rep(c("f", "m"), each=10)
df1 <- data.frame(x,y,sex)
with(df1, plot(y~x, col=c(1,2)[sex]))
lm1 <- lm(y~sex, data=df1)
lm2 <- lm(y~sex+x, data=df1)
anova(lm1); anova(lm2)

Se puede ver sin control de peso (en anova(lm1)) hay muy poca diferencia entre los sexos, pero cuando el peso está incluido como covariable (controlado para en lm2) entonces la diferencia se hace más evidente.

#In case you want to add the fitted lines to the plot
coefs2 <- coef(lm2)
abline(coefs2[1], coefs2[3], col=1)
abline(coefs2[1]+coefs2[2], coefs2[3], col=2)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X