¿Cuáles son las mejores técnicas de visualización de datos para comparar distribuciones?

Question

¿Cuáles son las mejores técnicas de visualización de datos para comparar distribuciones?

Preguntado el 14 de Mayo, 2012: Cuando se hizo la pregunta
11101 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy escribiendo mi tesis doctoral y me he dado cuenta de que confío excesivamente en los gráficos de caja para comparar distribuciones. ¿Qué otras alternativas te gustan para realizar esta tarea?

También me gustaría preguntarte si conoces algún otro recurso como la galería R en el que pueda inspirarme con diferentes ideas sobre visualización de datos.

Preguntado el 14 de Mayo, 2012 por Tagged Off

Answer 1

2 Respuestas

Answer 2

4voto

Nick Cox Puntos 22819

Recomiendo encarecidamente gráficos de cuantiles En primer lugar, se trata de gráficos de los datos ordenados por rango (cuantiles observados) frente a la probabilidad acumulada. Muchos gráficos de cuantiles son explícitamente gráficos frente a otros cuantiles, y pueden denominarse gráficos de cuantiles-cuantiles o gráficos QQ. Un gráfico frente a la probabilidad acumulada no es una excepción, ya que los valores del eje horizontal son cuantiles de una distribución uniforme (rectangular, plana) en el intervalo unitario. Aunque los cuantiles en estadística son a menudo (¡generalmente!) puntos de resumen particulares, como cuartiles, deciles o percentiles, en este contexto gráfico los cuantiles son simplemente todos los datos ordenados, o equivalentemente los estadísticas de pedidos de varios valores en alguna variable.

Los gráficos de cuantiles no implican decisiones arbitrarias sobre el agrupamiento o el suavizado y representan los datos tal y como llegan, mostrando el nivel, la dispersión y la forma (incluidos los valores atípicos, los huecos, los picos y otros detalles a medida que se producen). La convención de mostrar los puntos de datos como puntos es sólo eso; para una muestra grande, el patrón de puntos a menudo se difumina en una línea, que es genuina siempre que se observa y no una limitación. También son posibles las representaciones lineales.

Aquí me hago eco de una respuesta anterior y utilizo el Iris datos de E.S. Anderson, como hizo famoso R.A. Fisher.

La elección entre superposición y yuxtaposición debe ser siempre la de cuál funciona mejor. En este ejemplo, la superposición funciona bien, aunque con otros conjuntos de datos puede dar lugar a un espagueti enmarañado. La imagen de estos datos es principalmente que los subconjuntos difieren en nivel, con una dispersión y forma vagamente similares, aunque pueden detectarse detalles adicionales (por ejemplo, redondeo convencional en los resultados de los informes y un valor atípico leve en virginica ).

Los gráficos de cuantiles se pueden suavizar, aunque parece que esto no se hace casi nunca. A la inversa, se puede argumentar que reducir los datos a un conjunto más pequeño de, digamos valores de las letras conserva la mayor parte de la información sobre cada distribución. Este documento es una puerta de entrada a la literatura más antigua. Aunque su nombre se debe a John W. Tukey, los valores de las letras se remontan al menos a Francis Galton.

Los gráficos de cuantiles pueden utilizarse incluso para datos categóricos siempre que tengan códigos numéricos. La naturaleza escalonada de los gráficos resultantes es realista y, si se trata de comparar la misma variable para distintos subconjuntos, o para variables similares, lo esencial es que los valores se codifiquen de forma coherente, lo cual no es muy exigente.

Un gráfico de cuantiles por defecto simplemente traza los valores observados frente a una probabilidad acumulada asociada, en este contexto a menudo llamada un posición de trazado .

En muchos casos será una buena idea trazar contra algún cuantil teórico, esencialmente el resultado de empujar una posición de trazado a través de una función de cuantiles. Esto es natural si se tiene en mente una distribución particular, o al menos una distribución particular puede servir como distribución de referencia. Como han señalado muchos autores, tomar como referencia una distribución normal (gaussiana) puede ser muy conveniente. Es exactamente lo correcto si las comparaciones con distribuciones normales son de interés directo, y no es absurdo incluso si no lo son. El uso de la distribución normal como referencia no implica que los datos estén o deban estar distribuidos normalmente, como tampoco lo implica comparar formas con círculos o esferas, comparar altitudes con el nivel del mar o comparar temperaturas con el punto de congelación del agua. Si alguna otra familia de distribuciones es una referencia mejor, por ejemplo la gamma o la exponencial, utilícela. Del mismo modo, las transformaciones monotónicas de los cuantiles observados (por ejemplo, una escala logarítmica) pueden ayudar a menudo, siendo esencial que dichas transformaciones preserven el orden.

En principio, la misma información se codifica en gráficos de función de distribución (empírica (acumulativa)) (gráficos ECDF) o en gráficos de función de supervivencia. En la práctica, los gráficos de cuantiles pueden facilitar la observación del comportamiento de las colas, mientras que los gráficos ECDF facilitan ligeramente la comparación de las distribuciones medias. La elección a menudo se reduce tanto a los hábitos tribales como al gusto personal o a comparaciones de cuál funciona mejor en algún sentido.

Esto es, o debería ser, muy fácil en R, y de hecho en su software estadístico o matemático favorito si es diferente. Si no es así, necesitas un nuevo favorito.

Respondido el 25 de Febrero, 2022 por Nick Cox (22819 Puntos )

Answer 3

2voto

TrynnaDoStat Puntos 3590

Me gusta estimar las densidades y trazarlas,

head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa

library(ggplot2)
ggplot(data = iris) + geom_density(aes(x = Sepal.Length, color = Species, fill = Species), alpha = .2)

Respondido el 18 de Abril, 2016 por TrynnaDoStat (3590 Puntos )

¿Cuáles son las mejores técnicas de visualización de datos para comparar distribuciones?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cuáles son las mejores técnicas de visualización de datos para comparar distribuciones?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: