6 votos

Visualizar la variabilidad de gráfico

Figure1.Scatterplot of CHD by AGE for 100 subjects

Está escrito en el libro de Aplicar la Regresión Logística, Segunda Edición. Por David W. Hosmer y Stanley Lemeshow , p.2 que un problema con la gráfica anterior, es que el variability in CHD at all ages is large.

Pero no puedo visualizar la variabilidad de la enfermedad coronaria.

¿Que significa la distancia entre los dos en línea recta por la variabilidad? Pero 0 y 1 para CHD indicar la ausencia y la presencia de enfermedad coronaria y estos dos niveles son sólo nominalmente definido. Si quiero representar por 1 y 1.01, la distancia no será tan grande.

Desde qué ángulo debería visualizar la variabilidad en la enfermedad coronaria?

7voto

Nick Cox Puntos 22819

El punto es, presumiblemente, primaria, es decir, que los casos con enfermedad coronaria ocurrir casi en cualquier edad, pero esto parece banal, incluso a aquellos que no son médicos. Pero estadísticamente, la variabilidad significa mucho más que "variación"; es algo que debe ser cuantificado.

Sin un contexto y nada más dijo, el principal problema con la gráfica parece diferente al establecido. Se trata de que el lector no tiene ninguna manera de saber si cada punto de datos es una sola persona o a varias personas y no hay manera de comparar las frecuencias, ya que las personas con la misma edad y estado de la enfermedad coronaria que inevitablemente tendrán que ser representados exactamente en el mismo punto. Overplotting es la principal debilidad de este gráfico.

Es razonable que suficiente para grabar la edad a la más cercana de año, pero una más de informativos de la gráfica muestran fracciones con CHD en cada edad y números absolutos. Absolutamente la mejor manera de hacerlo depende de los números involucrados. Con modesto frecuencias de punto o stripplots mostrando los puntos apilados por la edad podría ser factible. Con mucho mayor frecuencias, vinculado histogramas sería una posibilidad.

Detalle: la Edición de la OP del post revela una leyenda de la gráfica representa el 100 sujetos. He dejado mi comentario anterior como el primer escrito porque creo que ellos justo en lo que estaba visiblemente presentado a todos, excepto a aquellos que pasan a editar el post.

P. S. Se trata de un convenio fuerte para representar la ausencia-presencia, sí o no, etc. binario de los estados con el 0 y el 1. Una de las principales razones para esto es que los medios de 0s y 1s, a continuación, representan la proporción presente (sí, etc.). El OP sugiere que podría ser la codificación, tales como 1 y 1,01 a la cual la respuesta es Sí, en principio, pero no hay ninguna razón para tal codificación más fuerte que las ventajas de 0,1. En cualquier caso, los gráficos como este siempre debe ser elaborado con una escala adecuada para distinguir los diferentes estados. Así que el uso de código binario es razonable y no hacer el gráfico de la problemática; de hecho, el siguiente paso es mostrar fracciones (proporciones, probabilidades) que se puede hacer de manera consistente con la escala.

7voto

jldugger Puntos 7490

Por la "variabilidad", de los autores entiende cualquier medida razonable de la dispersión de la enfermedad coronaria condicional en la edad.

El estudio de este mediante la segmentación de los datos en estrecha grupos de edad (como se muestra en diferentes colores en la mano derecha del diagrama de dispersión), el cálculo de la dispersión de la enfermedad coronaria valores dentro de cada grupo de edad, y el trazado de los dispersiones en contra de edad (que se muestra en la parte izquierda del punto del gráfico).

Figures

Debido a que la enfermedad coronaria es binario y codificados con ceros y unos, es una variable de Bernoulli. La CHD valores dentro de cualquier grupo de edad $i$ son completamente resumidos por su recuento $n_i$ y el número de (decir), $k_i$, que por lo tanto tiene una distribución Binomial con (desconocido) probabilidad de $p_i = \Pr(1)$. Aunque hay muchas formas de calcular el $p_i$, no tiene que ser quisquilloso; la proporción $\hat p_i = k_i / n_i$ va a hacer muy bien. Una adecuada medida de la dispersión de la enfermedad coronaria, a continuación, es la estimación de la desviación estándar $\sqrt{\hat p_i(1-\hat p_i)}$. Puede variar de $0$ (al $\hat p_i$ está cerca de a $0$ o $1$) a $1/2$ (alcanzado al $\hat p_i = 1/2$). La gama completa de posibles desviaciones estándar se muestra en el eje horizontal en la parte izquierda de la parcela. Claramente todos ellos están en el alto (derecha) de la gama, que explique y justifique la valoración de que "la variabilidad en todas las edades es grande."

De Hosmer y Lemeshow pasar a analizar estos datos en ocho grupos de edad en lugar de los once que se muestra aquí. La conclusión de manera consistente gran variabilidad comienza a romperse con más grupos de edad: se puede ver en la mano derecha de la parcela de que todos los CHD valores son constantes en el menor y mayor edad, que no presenten ningún variabilidad a todos. Que se puede esperar: cuando utilizamos muchos grupos, algunos grupos tienen pocos valores, resultando en una alta incertidumbre sobre la verdadera dispersión dentro de cada grupo. Los autores, mediante la limitación del número de grupos, mantener bastante altos recuentos $n_i$ dentro de cada grupo, logrando así una sólida imagen de la dispersión de la enfermedad coronaria condicional en la edad.

Más sofisticado, pero un poco más opaco, el método para estimar el condicional dispersión es suave CHD contra la Edad, el uso de un local estimador de la media. Este suave puede ser convertido a un estimador de la dispersión utilizando la misma fórmula como antes:

Figure 2

He resaltado en rojo, y por el engrosamiento de la línea) los "grandes" desviaciones estándar, es decir, aquellos mayores que el valor medio de $1/4$.


Estos datos están disponibles en el archivo chdage.dat encontrado en ftp://ftp.wiley.com/public/sci_tech_med/logistic/alr.zip. El R código utilizado para crear estas parcelas se reproduce a continuación para aquellos a quienes les gusta experimentar con ellos.

#
# Applied Logistic Regression, Table 1.1
#
folder <- "F:/Research/ALR/logistic/" # Location of the data file on your system
x <- read.table(paste0(folder, "chdage.dat"), col.names=c("Id", "Age", "CHD"))
#
# Specify age grouping.
#
n.groups <- 11
k <- 5           # Should be relatively prime to n.groups and near n.groups/2
colors <- rainbow(n.groups)
colors <- colors[(1:n.groups * k) %% n.groups + 1]
#
# Study dispersion ("variability") of CHD by age.
#
breaks <- quantile(x$Age, (0:n.groups)/n.groups) #$
x$AgeGroup <- cut(x$Age, breaks)
s <- aggregate(x$CHD, by=list(x$AgeGroup), function(y) sqrt(mean(y)*(1-mean(y))))
dotchart(s$x, s$Group.1, xlim=c(0, 0.525), pch=16, col=colors, cex=min(1, 10/n.groups),
         xlab="Standard Deviation", 
         main="Variation in CHD by Age Group", cex.main=0.8)
#
# Plot the raw data.
#
names(colors) <- levels(x$AgeGroup)
    plot(jitter(x$Age), x$CHD, yaxp=c(0, 1, 1), ylim=c(0,1)+c(-1,1)*0.05,
         cex=1.25, col=colors[x$AgeGroup], 
     xlab="Age (years, jittered)", ylab="CHD",
     main="CHD vs. Age", cex.main=0.8)
abline(v = breaks, lty=1, col="Gray")
#
# Plot the smoothed dispersion.
#
CHD.smooth <- lowess(x$Age, x$CHD)
CHD.smooth$y <- pmin(1, pmax(0, CHD.smooth$y))
CHD.sd <- sqrt(CHD.smooth$y * (1-CHD.smooth$y))
large <- CHD.sd > 1/4
plot(CHD.smooth$x, CHD.sd, type="l", lwd=2, col="Gray",
         xlab="Age", ylab="Standard Deviation", 
         main="Smoothed Dispersion of CHD",
         cex.main=0.75, cex.lab=0.75, cex.axis=0.75) #$
lines(CHD.smooth$x[large], CHD.sd[large], lwd=3, col="Red")

4voto

Chris Puntos 806

Creo que lo que intentan hacer es que, para cualquier bin de cierta edad (digamos 40-45) hay un número igual de CHD = 0 y CHD = 1. Esto indica que la CHD no es muy predecible de edad, por lo que tiene una alta variabilidad. Si desea cuantificar esto, usted podría utilizar algo como entropía binaria - más cerca p(CHD=0) es a 1/2, la entropía/variabilidad más allí es para que bin de edad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X