Explorar las relaciones entre las variables es bastante vago, pero dos de los objetivos más generales de examinar gráficos de dispersión como éste supongo que son;
- Identificar grupos latentes subyacentes (de variables o casos).
- Identificar los valores atípicos (en el espacio univariante, bivariante o multivariante).
Ambos reducen los datos en resúmenes más manejables, pero tienen objetivos diferentes. Para identificar grupos latentes se suelen reducir las dimensiones de los datos (por ejemplo, mediante PCA) y luego se explora si las variables o los casos se agrupan en este espacio reducido. Véase, por ejemplo, Friendly (2002) o Cook et al. (1995).
La identificación de los valores atípicos puede significar el ajuste de un modelo y el trazado de las desviaciones del modelo (por ejemplo, el trazado de los residuos de un modelo de regresión) o la reducción de los datos en sus componentes principales y sólo resaltar los puntos que se desvían del modelo o del cuerpo principal de datos. Por ejemplo, los gráficos de caja en una o dos dimensiones suelen mostrar sólo los puntos individuales que están fuera de las bisagras (Wickham y Stryjewski, 2013). El trazado de los residuos tiene la agradable propiedad de que debería aplanar los gráficos (Tukey, 1977), por lo que cualquier evidencia de relaciones en la nube de puntos restante es "interesante". Esta pregunta sobre el CV tiene algunas sugerencias excelentes para identificar los valores atípicos multivariantes.
Una forma habitual de explorar estos grandes SPLOMS es no trazar todo de los puntos individuales, sino algún tipo de resumen simplificado y, a continuación, tal vez los puntos que se desvían en gran medida de este resumen, por ejemplo, elipses de confianza, resúmenes escagnéticos (Wilkinson & Wills, 2008), gráficos de caja bivariados, gráficos de contorno. A continuación se muestra un ejemplo de trazado de elipses que definen la covarianza y la superposición de un suavizador de loess para describir la asociación lineal.
(fuente: <a href="http://www.statmethods.net/advgraphs/images/corrgram2.png" rel="nofollow noreferrer">statmethods.net </a>)
En cualquier caso, un gráfico interactivo realmente exitoso con tantas variables probablemente necesitaría una clasificación inteligente (Wilkinson, 2005) y una forma sencilla de filtrar las variables (además de capacidades de cepillado/enlace). También cualquier conjunto de datos realista necesitaría tener la capacidad de transformar los ejes (por ejemplo, trazar los datos en escala logarítmica, transformar los datos sacando raíces, etc.). Buena suerte, y no te quedes con un solo gráfico.
Citas
- Cook, Dianne, Andreas Buja, Javier Cabrera y Catherine Hurley. 1995. El gran viaje y la persecución de la proyección. Revista de Estadística Computacional y Gráfica 4 (3):155-172.
- Amigable, Michael. 2002. Corrgramas: Visualizaciones exploratorias para matrices de correlación. The American Statistician 56 (4): 316-324. Preimpresión en PDF .
- Tukey, John. 1977. Exploratory Data Analysis. Addison-Wesley. Reading, Mass.
- Wickham, Hadley y Lisa Stryjewski. 2013. 40 años de boxplots .
- Wilkinson, Leland y Graham Wills. 2008. Distribuciones escagnéticas. Revista de Estadística Computacional y Gráfica 17 (2): 473-491.
- Wilkinson, Leland. 2005. La gramática de los gráficos . Springer. Nueva York, NY.
4 votos
No has dejado claro lo que buscas. ¿Quieres ver la nube, cada punto de datos? ¿Quieres ver todas las facetas bivariadas a la vez ?
0 votos
@ttnphns Quiero ver todos los puntos de datos O ellos en alguna forma agregada (por ejemplo, histogramas 2d). No necesito ver todas las cosas son una vez (como tiene sentido para <15 variables, pero no 200). Y sí, soy consciente de que la pregunta es un poco abierta. Una versión cerrada es "¿Existe una biblioteca JS para mostrar gráficos de dispersión e histogramas cuando el ratón se cierne sobre el píxel respectivo en una matriz de correlación? ¿O debería escribir una? :)" Escribí una más general, ya que tal vez hay algunos mejores flujos de trabajo para hacer frente al problema.
0 votos
Es posible organizar la matriz de gráficos de dispersión en forma de cubo olap, de modo que sólo se vea uno o varios gráficos a la vez y se pueda cambiar entre ellos. Desafortunadamente, no conozco un programa o código específico para hacer cubos olap gráficos.
1 votos
Posiblemente relacionado: ¿Cómo extraer información de una matriz de dispersión cuando se tiene N grande, datos discretos y muchas variables?