Estoy tratando de hacer lo siguiente y ya he pasado unas cuantas horas en vano:
Quería hacer el gráfico de dispersión. Pero dada la alta dispersión de esos puntos, me gustaría dividir el eje x en binarios y, a continuación, para cada binario del eje x, trazar los cuantiles de los valores y de los puntos de datos en cada binario:
- Tamaño de recipiente uniforme en el eje x;
- Igual número de observaciones en cada casilla;
(Estos dos son casos distintos).
¿Cómo hacer eso en R? Supongo que para que quede bonito, mejor lo hago en ggplot2?
El origen de este problema era que un gráfico de dispersión simple con demasiados puntos con alta dispersión generaba demasiados puntos volando por todos lados.
Estamos intentando suavizar un poco los gráficos...
¿Alguna buena recomendación?
¿Qué tal "trazar los cuantiles de cada bin"?
Pero, ¿cómo se trazan los cuantiles? ¿Debo especificar el cuantil del 50%, etc.?
[p.s. Actualización 3/11/2011]: Estoy probando lo siguiente siguiendo los posts de ayuda de R:
DAT <- data.frame(x = runif(1000, 0, 20), y = rnorm(1000))
DAT$xbin <- with(DAT, cut(x, seq(0, 20, 2)))
p <- ggplot(DAT, aes(x = x, y = y)) + geom_point(alpha = 0.2) +
stat_quantile(aes(colour = ..quantile..), quantiles = seq(0.05, 0.95,
by=0.05)) + facet_wrap(~ xbin, scales = "free")
print(p)
Mis preguntas son:
1) ¿Cómo hago para que haya "igual número de puntos" en cada casilla a lo largo del eje x? es decir, el requisito original número 2 de mi pregunta?
2) Y además, no importa cómo haya cambiado el quantiles = seq(0.05, 0.95, by=0.05))
línea, el número de líneas en cada casilla y el número de leyendas en el lado derecho de cada gráfico son diferentes...
¿Cuál es la trampa? ¿Me estoy perdiendo algo?
Pensé que el número de líneas de cuantiles y el número de leyendas deberían ser exactamente iguales, ¿no?