2 votos

Visualizar e interpretar un gran conjunto de datos asimétricos univariantes

Estoy tratando de encontrar la respuesta a esta simple pregunta. Tengo datos (lista de números). Tengo 20000 números. El número más pequeño es 100 y el más grande es 15000. Quiero interpretar estos datos, cómo se distribuyen o cualquier otra sugerencia, que cómo puedo jugar con estos datos y hacer diferentes cosas?

El caso es que tengo que hacer una presentación sobre estadísticas resumidas de estos datos y también quiero incluir gráficos de estos datos en mi presentación para poder mostrar fácilmente a todo el mundo, cómo son los datos, para decirles, cuál es el número más grande, el más pequeño, qué rango de números se dan más.

Así que he hecho histograma en R pero para tantos números, el histograma no es una buena opción. También sé cómo calcular toda esta media, mediana y desviación estándar. Esto no es una tarea, quiero hacer una presentación sobre los datos, y no soy un estadístico.

3voto

Ted Puntos 854

Muchos de los datos de gasto con los que trabajo tienen una distribución similar a esta. Dependiendo de lo que necesite hacer, a menudo encontramos útil trazar un histograma del logaritmo de los datos. Esto puede hacerse transformando la variable y trazando eso, o trazando los datos originales en un eje logarítmico.

Este método puede ser útil para reflexionar de nuevo sobre los valores atípicos: ¿son realmente casos excepcionales o son sólo los valores altos naturales que cabría esperar con lo que una distribución subyacente que es bastante regular, por ejemplo, aproximadamente log normal.

Para la mayoría de las audiencias, sería una buena idea presentar también el original, ya que, de lo contrario, es fácil que se queden con la idea incorrecta de que sus datos están distribuidos de forma simétrica cuando están lejos de serlo.

Entonces, un gráfico cuantil-cuantil es la mejor manera de comparar la distribución de su variable con alguna distribución de referencia. A continuación se incluye un gráfico qq que compara el logaritmo de nuestra variable "gasto" con una distribución normal. Esto muestra que nuestra distribución no es realmente logarítmica normal, pero para una cantidad razonable de su rango, incluyendo los valores más altos, es una aproximación razonable. La interpretación de los gráficos qq requiere un poco de práctica, pero hay muchas explicaciones al respecto.

Por ejemplo,

library(ggplot2)
qplot(TotalSpend) # this is just a histogram
qplot(TotalSpend, log="x")
qplot(sample=log(TotalSpend), stat="qq") # or qqnorm() if you prefer

enter image description here

2voto

georg Puntos 1742

Un histograma es una buena opción cuando se tienen muchos datos. Supongo que sus problemas son que con un histograma:

  1. sus altos valores atípicos no se notarán.

  2. el visual es demasiado pequeño porque el eje x se estira lo suficiente para capturar los valores atípicos altos.

Resuelve el problema 1 con una nota debajo de la gráfica: "Hay grandes valores atípicos que no son visibles".

Resolver el problema 2 reduciendo el alcance, algo así como: hist(x, xlim=range(0:2000))

@chl me ha señalado que mi descripción era un poco confusa, así que la he editado ligeramente. También señala que probablemente necesitarás ajustar otros parámetros para hacer un histograma de buen aspecto, por ejemplo, "breaks", que afecta al tamaño de las casillas. Por supuesto, hay otros paquetes que podrías usar para tu trazado. lattice y ggplot2 son dos alternativas populares a los gráficos de R de base.

Además de calcular la desviación estándar, puede utilizar una función como describe del paquete Hmisc. Proporciona una salida como ésta:

ih$bweightoz : birthweight in ounces 
      n missing  unique    Mean     .05     .10     .25     .50 
  16548    4197     136   115.4    75.0    86.7   103.0   117.0 
    .75     .90     .95 
  129.0   142.0   151.0 

lowest :  48.01  64.00  64.01  65.00  66.00
highest: 187.00 188.00 190.00 191.00 192.01

1voto

Dominic Comtois Puntos 963

Un histograma haría exactamente eso. Para las estadísticas descriptivas, la media, la desviación estándar y la asimetría, así como el IQR son los más utilizados. Dependiendo del tipo de distribución, algunos de ellos son más o menos relevantes: una media no es realmente representativa en una distribución muy sesgada, por ejemplo. Probablemente prefiera la mediana, que es menos sensible a los extremos.

1voto

kba Puntos 216

Un gráfico de caja muestra las estadísticas de resumen. Pruebe un gráfico de caja.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X