32 votos

¿Cuáles son las mejores técnicas de visualización de datos para comparar distribuciones?

Estoy escribiendo mi tesis doctoral y me he dado cuenta de que confío excesivamente en los gráficos de caja para comparar distribuciones. ¿Qué otras alternativas te gustan para realizar esta tarea?

También me gustaría preguntarte si conoces algún otro recurso como la galería R en el que pueda inspirarme con diferentes ideas sobre visualización de datos.

4voto

Nick Cox Puntos 22819

Recomiendo encarecidamente gráficos de cuantiles En primer lugar, se trata de gráficos de los datos ordenados por rango (cuantiles observados) frente a la probabilidad acumulada. Muchos gráficos de cuantiles son explícitamente gráficos frente a otros cuantiles, y pueden denominarse gráficos de cuantiles-cuantiles o gráficos QQ. Un gráfico frente a la probabilidad acumulada no es una excepción, ya que los valores del eje horizontal son cuantiles de una distribución uniforme (rectangular, plana) en el intervalo unitario. Aunque los cuantiles en estadística son a menudo (¡generalmente!) puntos de resumen particulares, como cuartiles, deciles o percentiles, en este contexto gráfico los cuantiles son simplemente todos los datos ordenados, o equivalentemente los estadísticas de pedidos de varios valores en alguna variable.

Los gráficos de cuantiles no implican decisiones arbitrarias sobre el agrupamiento o el suavizado y representan los datos tal y como llegan, mostrando el nivel, la dispersión y la forma (incluidos los valores atípicos, los huecos, los picos y otros detalles a medida que se producen). La convención de mostrar los puntos de datos como puntos es sólo eso; para una muestra grande, el patrón de puntos a menudo se difumina en una línea, que es genuina siempre que se observa y no una limitación. También son posibles las representaciones lineales.

Aquí me hago eco de una respuesta anterior y utilizo el Iris datos de E.S. Anderson, como hizo famoso R.A. Fisher.

enter image description here

enter image description here

La elección entre superposición y yuxtaposición debe ser siempre la de cuál funciona mejor. En este ejemplo, la superposición funciona bien, aunque con otros conjuntos de datos puede dar lugar a un espagueti enmarañado. La imagen de estos datos es principalmente que los subconjuntos difieren en nivel, con una dispersión y forma vagamente similares, aunque pueden detectarse detalles adicionales (por ejemplo, redondeo convencional en los resultados de los informes y un valor atípico leve en virginica ).

Los gráficos de cuantiles se pueden suavizar, aunque parece que esto no se hace casi nunca. A la inversa, se puede argumentar que reducir los datos a un conjunto más pequeño de, digamos valores de las letras conserva la mayor parte de la información sobre cada distribución. Este documento es una puerta de entrada a la literatura más antigua. Aunque su nombre se debe a John W. Tukey, los valores de las letras se remontan al menos a Francis Galton.

Los gráficos de cuantiles pueden utilizarse incluso para datos categóricos siempre que tengan códigos numéricos. La naturaleza escalonada de los gráficos resultantes es realista y, si se trata de comparar la misma variable para distintos subconjuntos, o para variables similares, lo esencial es que los valores se codifiquen de forma coherente, lo cual no es muy exigente.

Un gráfico de cuantiles por defecto simplemente traza los valores observados frente a una probabilidad acumulada asociada, en este contexto a menudo llamada un posición de trazado .

En muchos casos será una buena idea trazar contra algún cuantil teórico, esencialmente el resultado de empujar una posición de trazado a través de una función de cuantiles. Esto es natural si se tiene en mente una distribución particular, o al menos una distribución particular puede servir como distribución de referencia. Como han señalado muchos autores, tomar como referencia una distribución normal (gaussiana) puede ser muy conveniente. Es exactamente lo correcto si las comparaciones con distribuciones normales son de interés directo, y no es absurdo incluso si no lo son. El uso de la distribución normal como referencia no implica que los datos estén o deban estar distribuidos normalmente, como tampoco lo implica comparar formas con círculos o esferas, comparar altitudes con el nivel del mar o comparar temperaturas con el punto de congelación del agua. Si alguna otra familia de distribuciones es una referencia mejor, por ejemplo la gamma o la exponencial, utilícela. Del mismo modo, las transformaciones monotónicas de los cuantiles observados (por ejemplo, una escala logarítmica) pueden ayudar a menudo, siendo esencial que dichas transformaciones preserven el orden.

En principio, la misma información se codifica en gráficos de función de distribución (empírica (acumulativa)) (gráficos ECDF) o en gráficos de función de supervivencia. En la práctica, los gráficos de cuantiles pueden facilitar la observación del comportamiento de las colas, mientras que los gráficos ECDF facilitan ligeramente la comparación de las distribuciones medias. La elección a menudo se reduce tanto a los hábitos tribales como al gusto personal o a comparaciones de cuál funciona mejor en algún sentido.

Esto es, o debería ser, muy fácil en R, y de hecho en su software estadístico o matemático favorito si es diferente. Si no es así, necesitas un nuevo favorito.

2voto

TrynnaDoStat Puntos 3590

Me gusta estimar las densidades y trazarlas,

head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa

library(ggplot2)
ggplot(data = iris) + geom_density(aes(x = Sepal.Length, color = Species, fill = Species), alpha = .2)

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X