12 votos

¿Cómo interpreto este Gráfico de Dispersión?

Tengo un gráfico de dispersión que tiene el tamaño de la muestra que es igual al número de personas en el eje x y el salario mediano en el eje y, estoy tratando de averiguar si el tamaño de la muestra tiene algún efecto sobre el salario mediano.

Este es el gráfico:

enter image description here

¿Cómo interpreto este gráfico?

3 votos

Si puedes, te sugeriría trabajar con una transformación de ambas variables. Si ninguna variable tiene exactamente ceros, echa un vistazo a la escala log-log

0 votos

@Glen_b lo siento, no estoy familiarizado con los términos que has mencionado, solo con mirar el gráfico, ¿puedes establecer una relación entre las dos variables? Lo que puedo suponer es que para un tamaño de muestra de hasta 1000 no hay relación, ya que para el mismo tamaño de muestra hay múltiples valores de la mediana. Para valores superiores a 1000, parece disminuir el salario mediano. ¿Qué opinas?

0 votos

No veo evidencia clara de eso, me parece bastante plano; si hay cambios claros probablemente se encuentren en la parte inferior del tamaño de la muestra. ¿Tienes los datos o solo la imagen del gráfico?

9voto

jldugger Puntos 7490

"Descubrir" indica que estás explorando los datos. Las pruebas formales serían superfluas y sospechosas. En su lugar, aplica técnicas estándar de análisis exploratorio de datos (EDA) para revelar lo que puede estar en los datos.

Estas técnicas estándar incluyen re-expresión, análisis residual, técnicas robustas (las "tres R" de EDA) y suavizado de los datos como lo describe John Tukey en su libro clásico EDA (1977). Cómo realizar algunas de ellas se detalla en mi publicación en Transformación similar a Box-Cox para variables independientes? y En regresión lineal, ¿cuándo es apropiado usar el logaritmo de una variable independiente en lugar de los valores reales?, inter alia.

El resultado es que mucho puede verse al cambiar a ejes log-log (re-expresando efectivamente ambas variables), suavizando los datos de manera no demasiado agresiva y examinando residuos del suavizado para verificar lo que podría haber pasado por alto, como ilustraré.

Aquí están los datos mostrados con un suavizado que, después de examinar varios suavizados con diferentes grados de fidelidad a los datos, parece una buena compensación entre demasiado suavizado y muy poco suavizado. Utiliza Loess, un método robusto bien conocido (no está influenciado en gran medida por puntos atípicos de forma vertical).

Diagrama de dispersión log-log

La cuadrícula vertical se muestra en pasos de 10,000. El suavizado sugiere alguna variación de Grad_median con el tamaño de la muestra: parece disminuir cuando los tamaños de muestra se acercan a 1000. (Los extremos del suavizado no son confiables, especialmente para muestras pequeñas, donde se espera que el error de muestreo sea relativamente grande, así que no lea demasiado en ellos). Esta impresión de una disminución real es respaldada por las bandas de confianza (muy ásperas) dibujadas por el software alrededor del suavizado: sus "ondulaciones" son mayores que los anchos de las bandas.

Para ver lo que este análisis podría haber pasado por alto, la siguiente figura examina los residuos. (Estas son diferencias de logaritmos naturales, midiendo directamente las discrepancias verticales entre los datos y el suavizado anterior. Debido a que son números pequeños, pueden interpretarse como diferencias proporcionales; por ejemplo, $-0.2$ refleja un valor de datos que es aproximadamente un $20\%$ más bajo que el valor suavizado correspondiente).

Estamos interesados en (a) si existen patrones adicionales de variación a medida que cambia el tamaño de la muestra, y (b) si las distribuciones condicionales de la respuesta--las distribuciones verticales de las posiciones de los puntos--son plausiblemente similares en todos los valores del tamaño de la muestra, o si algún aspecto de ellas (como su dispersión o simetría) podría cambiar.

[![Figura 2: Gráfico de residuos](https://i.sstatic.net/YsiQ7.png)

Este suavizado intenta seguir los puntos de datos aún más de cerca que antes. Sin embargo, es esencialmente horizontal (dentro del alcance de las bandas de confianza, que siempre cubren un valor de y de $0.0$), lo que sugiere que no se puede detectar ninguna variación adicional. El ligero aumento en la dispersión vertical cerca del medio (tamaños de muestra de 2000 a 3000) no sería significativo si se probara formalmente, por lo que seguramente es poco notable en esta etapa exploratoria. No existe una desviación clara y sistemática de este comportamiento general aparente en ninguna de las categorías separadas (distinguidas, no muy bien, por color--las analicé por separado en figuras que no se muestran aquí).

Por lo tanto, este resumen simple:

la mediana del salario es aproximadamente 10,000 menor para tamaños de muestra cerca de 1000

captura adecuadamente las relaciones que aparecen en los datos y parece mantenerse uniformemente en todas las categorías principales. Si eso es significativo--es decir, si se mantendría cuando se confronte con datos adicionales--solo se puede evaluar recopilando esos datos adicionales.


Para aquellos que les gustaría verificar este trabajo o llevarlo más lejos, aquí está el código R.

library(data.table)
library(ggplot2)
#
# Leer los datos.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Calcular los residuos.
#
span <- 0.6 # Valores más grandes suavizarán de forma más agresiva
X[, Log.residual := 
      residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Graficar los datos sobre un suavizado.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) + 
  ggtitle("EDA de Mediana de Salario vs. Tamaño de Muestra",
          paste("El suavizado tiene un span de", signif(span, 2)))
print(g)

span <- span * 2/3 # Buscar un poco más de detalle en los residuos
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + 
  ggtitle("EDA de Mediana de Salario vs. Tamaño de Muestra: Residuos",
          paste("El suavizado tiene un span de", signif(span, 2)))
print(g.r)

7voto

Glen_b está sugiriendo que tomes el logaritmo del tamaño de muestra y del salario mediano para ver si reescalar los datos tiene sentido.

No creo que esté de acuerdo con tu creencia de que el salario mediano disminuye una vez que el tamaño de muestra supera los 1,000. Me inclinaría más a decir que no hay relación alguna. ¿Tu teoría predice que debería haber una relación?

Otra forma de evaluar una posible relación es ajustar una línea de regresión a los datos. Alternativamente, también podrías usar una curva lowess. Grafica ambas líneas en tus datos y observa si se puede deducir algo (sin embargo, dudo que haya algo muy sustancial).

3 votos

El gráfico de dispersión es muy similar a un gráfico de embudo utilizado en metaanálisis. Vea un ejemplo similar. Graficar las bandas del embudo mostrará más claramente si hay alguna relación, podría haber una ligeramente positiva en este ejemplo.

6voto

Qroid Puntos 81

También estoy de acuerdo en que no hay relación. Reproduje tu gráfico de dispersión original (izquierda) e hice el gráfico de dispersión log-log sugerido por glen_b (derecha).

introduce la descripción de la imagen aquí

Parece que tampoco hay relación con ninguno. La correlación entre los datos transformados en registro es débil (Pearson R = -.13) y no significativa (p = .09). Dependiendo de cuánta información adicional tengas, tal vez haya una razón para ver alguna correlación negativa débil, pero parece ser un estiramiento. Supongo que cualquier patrón aparente que estés viendo es el mismo efecto visto aquí.

Editar: Después de mirar los gráficos de @famargar, me di cuenta de que tracé el tamaño de la muestra graduada vs el salario mediano no graduado. Creo que @sameed quería el tamaño de la muestra vs el salario mediano graduado, aunque no está totalmente claro. Para este último reproduzco los números de @famargar, es decir, $R = 0.0022$ ($p = 0.98$) y nuestros gráficos se ven idénticos.

0 votos

Gracias por mirar la correlación entre grad-mediana y grad-tamaño-muestra; ¡Me sorprendió mucho la diferencia entre los números!

0voto

phaeton616 Puntos 81

Intentar una regresión lineal te enseñará algo sobre esta relación, como se sugiere en la primera respuesta. Dado que parece que estás usando python más matplotlib para este gráfico, estás a una línea de código de la solución.

Puedes usar seaborn jointplot, que también mostrará la línea de regresión lineal, el coeficiente de correlación de Pearson y su valor p:

sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")

enter image description here

como puedes ver, no hay correlación. Al ver este último gráfico, parece que sería útil transformar el x-variable a logaritmo. Vamos a intentarlo:

df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")

enter image description here

Claramente se puede ver que -con transformación logarítmica o no- la correlación es pequeña, y tanto el valor p como los intervalos de confianza dicen que no es estadísticamente significativa.

3 votos

Las indicaciones de distribuciones condicionales fuertemente sesgadas sugieren que este no es un buen enfoque. Cuando también observes que el sesgo de la distribución del tamaño de la muestra hará que los pocos tamaños de muestra más grandes controlen la apariencia de una tendencia en la regresión, entenderás por qué otros recomiendan transformaciones preliminares de los datos.

1 votos

No estoy adivinando ni especulando: la trama en la pregunta claramente muestra estas características. También vea las parcelas creadas por R Greg Stacey, que, al aplicar las transformaciones log-log sugeridas, demuestran lo que logran.

0 votos

Acabo de encontrar los datos y hice el estudio yo misma - por favor, revise la respuesta actualizada.

-1voto

peter Puntos 451

Esta trama funciona como una demostración del teorema del límite central, donde la variabilidad entre las muestras disminuye a medida que aumenta el tamaño de la muestra. También es la forma que esperarías con una variable fuertemente sesgada como el salario.

3 votos

Estas no son muestras independientes de una población común. Eso hace que la relevancia del TLC sea bastante problemática.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X