"Descubrir" indica que estás explorando los datos. Las pruebas formales serían superfluas y sospechosas. En su lugar, aplica técnicas estándar de análisis exploratorio de datos (EDA) para revelar lo que puede estar en los datos.
Estas técnicas estándar incluyen re-expresión, análisis residual, técnicas robustas (las "tres R" de EDA) y suavizado de los datos como lo describe John Tukey en su libro clásico EDA (1977). Cómo realizar algunas de ellas se detalla en mi publicación en Transformación similar a Box-Cox para variables independientes? y En regresión lineal, ¿cuándo es apropiado usar el logaritmo de una variable independiente en lugar de los valores reales?, inter alia.
El resultado es que mucho puede verse al cambiar a ejes log-log (re-expresando efectivamente ambas variables), suavizando los datos de manera no demasiado agresiva y examinando residuos del suavizado para verificar lo que podría haber pasado por alto, como ilustraré.
Aquí están los datos mostrados con un suavizado que, después de examinar varios suavizados con diferentes grados de fidelidad a los datos, parece una buena compensación entre demasiado suavizado y muy poco suavizado. Utiliza Loess, un método robusto bien conocido (no está influenciado en gran medida por puntos atípicos de forma vertical).
La cuadrícula vertical se muestra en pasos de 10,000. El suavizado sugiere alguna variación de Grad_median
con el tamaño de la muestra: parece disminuir cuando los tamaños de muestra se acercan a 1000. (Los extremos del suavizado no son confiables, especialmente para muestras pequeñas, donde se espera que el error de muestreo sea relativamente grande, así que no lea demasiado en ellos). Esta impresión de una disminución real es respaldada por las bandas de confianza (muy ásperas) dibujadas por el software alrededor del suavizado: sus "ondulaciones" son mayores que los anchos de las bandas.
Para ver lo que este análisis podría haber pasado por alto, la siguiente figura examina los residuos. (Estas son diferencias de logaritmos naturales, midiendo directamente las discrepancias verticales entre los datos y el suavizado anterior. Debido a que son números pequeños, pueden interpretarse como diferencias proporcionales; por ejemplo, $-0.2$ refleja un valor de datos que es aproximadamente un $20\%$ más bajo que el valor suavizado correspondiente).
Estamos interesados en (a) si existen patrones adicionales de variación a medida que cambia el tamaño de la muestra, y (b) si las distribuciones condicionales de la respuesta--las distribuciones verticales de las posiciones de los puntos--son plausiblemente similares en todos los valores del tamaño de la muestra, o si algún aspecto de ellas (como su dispersión o simetría) podría cambiar.
[
Este suavizado intenta seguir los puntos de datos aún más de cerca que antes. Sin embargo, es esencialmente horizontal (dentro del alcance de las bandas de confianza, que siempre cubren un valor de y de $0.0$), lo que sugiere que no se puede detectar ninguna variación adicional. El ligero aumento en la dispersión vertical cerca del medio (tamaños de muestra de 2000 a 3000) no sería significativo si se probara formalmente, por lo que seguramente es poco notable en esta etapa exploratoria. No existe una desviación clara y sistemática de este comportamiento general aparente en ninguna de las categorías separadas (distinguidas, no muy bien, por color--las analicé por separado en figuras que no se muestran aquí).
Por lo tanto, este resumen simple:
la mediana del salario es aproximadamente 10,000 menor para tamaños de muestra cerca de 1000
captura adecuadamente las relaciones que aparecen en los datos y parece mantenerse uniformemente en todas las categorías principales. Si eso es significativo--es decir, si se mantendría cuando se confronte con datos adicionales--solo se puede evaluar recopilando esos datos adicionales.
Para aquellos que les gustaría verificar este trabajo o llevarlo más lejos, aquí está el código R
.
library(data.table)
library(ggplot2)
#
# Leer los datos.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Calcular los residuos.
#
span <- 0.6 # Valores más grandes suavizarán de forma más agresiva
X[, Log.residual :=
residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Graficar los datos sobre un suavizado.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) +
geom_smooth(span=span) +
geom_point(aes(fill=Major_category), alpha=1/2, shape=21) +
scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) +
ggtitle("EDA de Mediana de Salario vs. Tamaño de Muestra",
paste("El suavizado tiene un span de", signif(span, 2)))
print(g)
span <- span * 2/3 # Buscar un poco más de detalle en los residuos
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) +
geom_smooth(span=span) +
geom_point(aes(fill=Major_category), alpha=1/2, shape=21) +
scale_x_log10() +
ggtitle("EDA de Mediana de Salario vs. Tamaño de Muestra: Residuos",
paste("El suavizado tiene un span de", signif(span, 2)))
print(g.r)
3 votos
Si puedes, te sugeriría trabajar con una transformación de ambas variables. Si ninguna variable tiene exactamente ceros, echa un vistazo a la escala log-log
0 votos
@Glen_b lo siento, no estoy familiarizado con los términos que has mencionado, solo con mirar el gráfico, ¿puedes establecer una relación entre las dos variables? Lo que puedo suponer es que para un tamaño de muestra de hasta 1000 no hay relación, ya que para el mismo tamaño de muestra hay múltiples valores de la mediana. Para valores superiores a 1000, parece disminuir el salario mediano. ¿Qué opinas?
0 votos
No veo evidencia clara de eso, me parece bastante plano; si hay cambios claros probablemente se encuentren en la parte inferior del tamaño de la muestra. ¿Tienes los datos o solo la imagen del gráfico?
0 votos
@Glen_b aquí tienes un enlace a los datos: github.com/fivethirtyeight/data/blob/master/college-majors/…
4 votos
Si ves la mediana como la mediana de n variables aleatorias, entonces tiene sentido que la variación de la mediana disminuya a medida que aumenta el tamaño de la muestra. Eso explicaría la gran dispersión en el lado izquierdo del gráfico.
2 votos
Su afirmación "para un tamaño de muestra de hasta 1000 no hay relación ya que para el mismo tamaño de muestra hay múltiples valores de la mediana" es incorrecta.
0 votos
@Sameed, eché un vistazo al conjunto de datos: ¿estás graficando "Grad_median" vs "Grad_sample_size"? Yo diría que sí, pero también veo que hay muchas instancias donde este último es mucho más grande que los valores que veo en tu gráfica.