23 votos

¿Cuáles son las alternativas a los gráficos de caja?

Estoy trabajando en la creación de un sitio web, que muestra los datos del censo para un usuario seleccionado polígonos y le gustaría mostrar gráficamente la distribución de varios parámetros (un gráfico por parámetro).

Los datos suelen tener las siguientes propiedades:

  1. El tamaño de la muestra suele ser grande (por ejemplo, unos 10.000 puntos de datos)
  2. El rango de valores tiende a ser bastante grande (por ejemplo, la población mínima puede ser inferior a 100 y la máxima puede ser algo así como 500.000)
  3. q1 suele estar cerca del mínimo (digamos 200) mientras que q2 y q3 estarán dentro de los 10.000
  4. No se parece en nada a una distribución normal

No soy estadístico y, por tanto, mi descripción puede no ser exactamente clara.

Me gustaría mostrar esta distribución en un gráfico, que será visto por los ciudadanos (los legos, si se quiere).

Me hubiera gustado más utilizar un histograma, pero no es posible debido al gran rango de valores, por lo que hacer bins no es realmente fácil y sencillo.

Por lo poco que sé de estadística, un diagrama de caja es lo que se suele utilizar para mostrar este tipo de datos, pero creo que para un profano, descifrar el diagrama de caja no es fácil.

¿Qué opciones tengo para mostrar estos datos de forma fácil de entender?

0 votos

¿Qué es exactamente lo que muestra? No me queda claro qué tipo de datos representa su único punto de datos.

1 votos

¿Qué tal un gráfico de densidad del núcleo? statmethods.net/graphs/density.html

0 votos

@mpiktas: Mis datos son los del Censo de los pueblos. Mi sitio web permitirá al usuario seleccionar un área en el mapa, y luego encontrará todos los pueblos en esa área. Los datos del censo de un pueblo consisten en varios valores como: Población masculina, población femenina, ingresos medios de los hogares, etc., de ese pueblo. Espero mostrar la distribución de los datos de un valor concreto (por ejemplo, la población total) para todos los pueblos que se encuentran en la zona seleccionada por el usuario.

15voto

DavLink Puntos 101

Un boxplot no es tan complicado. Después de todo, sólo hay que calcular los tres cuartiles y los mínimos y máximos que definen el rango; la sutileza surge cuando queremos dibujar los bigotes y se han propuesto varios métodos. Por ejemplo, en un Gráfico de caja de Tukey los valores fuera de 1,5 veces el intercuartil del primer o tercer cuartil se considerarían como valores atípicos y se mostrarían como puntos simples. Véase también Métodos de presentación de la información estadística: El diagrama de caja para una buena visión general por Kristin Potter. El R implementa una regla ligeramente diferente, pero el código fuente está disponible si desea estudiarlo (véase el boxplot() y boxplot.stats() funciones). Sin embargo, no es muy útil cuando el interés es identificar los valores atípicos de una distribución muy sesgada (pero véase, Un boxplot ajustado para distribuciones sesgadas de Hubert y Vandervieren, CSDA 2008 52(12)).

En cuanto a la visualización en línea, le sugiero que eche un vistazo a Protovis que es una caja de herramientas js libre de plugins para pantallas web interactivas. El sitio web ejemplos página tiene muy ilustraciones de lo que se puede conseguir con ella, en muy pocas líneas.

3 votos

Trabajo en investigación biológica. Conozco a algunos colegas (me refiero a personas con un doctorado) que no pueden comprender realmente los boxplots. Yo no los utilizaría para dirigirse a un público general.

2 votos

@nico Es un punto justo. Pero, esto no es una razón para no utilizar un resumen gráfico eficiente. Una ilustración esquemática de lo que hace realmente un boxplot podría ayudar al lector.

2 votos

depende realmente de cuál sea el público objetivo y de cuál sea el objetivo del sitio. Explicar los gráficos de caja ayudaría sin duda, pero aun así, algunas personas tienen muchos problemas con el concepto de distribución.

9voto

Berek Bryan Puntos 349

Te sugiero que perseveres con los histogramas. Son mucho más conocidos que las alternativas. Utiliza una escala logarítmica para hacer frente a la gran variedad de valores. Aquí hay un ejemplo que he cocinado en un par de minutos en Stata: Histogram with log scale on the value axis
Admito que los rótulos numéricos del eje x no fueron del todo sencillos ni automáticos, pero como estás construyendo un sitio web, ¡estoy seguro de que tus habilidades de programación están a la altura del desafío!

0 votos

Buen punto. Los histogramas (o los gráficos de densidad con experimentos con el ancho de banda) son una gran solución en este caso.

0 votos

Tienes toda la razón, que el Histograma es la forma más entendida de mostrar una distribución. Intentaré hacer histogramas con los dos ejes en escala logarítmica.

2 votos

Sólo sugiero utilizar una escala logarítmica para el eje x. No creo que una escala logarítmica para el eje de frecuencias sea una buena idea, ya que entonces el área sombreada de cada barra del histograma no sería proporcional al número de observaciones.

6voto

John Richardson Puntos 1197

Me gusta bastante parcelas de violín ya que esto da una idea de la forma de la distribución. Sin embargo, si el problema es el gran rango de valores, tal vez sería mejor trazar el logaritmo de los datos en lugar de los valores brutos, lo que permitiría elegir el tamaño de las cajas para los histogramas, etc. Como la visualización es para legos, no mencione los logaritmos y marque el eje 10, 100, 1000, 10000, 100000, 1000000 etc.

5voto

reconbot Puntos 1670

Aquí hay una función de matlab para trazar múltiples histogramas uno al lado del otro en 2D como alternativa al box-plot. Véase la imagen de arriba. Y aquí está otro

La franja de densidad es otra alternativa al box-plot. Es una franja monocromática sombreada cuya oscuridad en un punto es proporcional a la densidad de probabilidad de la cantidad en ese punto. Se trata de una Aplicación de la R de la franja de densidad

1 votos

(+1) Lo había olvidado. Podría ser útil.

1 votos

Acabo de encontrar una versión en PDF sin comprimir de Visualización de la incertidumbre con sombreado .

1 votos

@chl: ese enlace no funciona

4voto

Marc-Andre R. Puntos 789

¿Qué tal si utilizamos los cuantiles? Entonces no es necesario presentar un gráfico, sólo una tabla. En el caso del censo de pueblos, creo que los usuarios estarán más interesados en saber cuántos pueblos tienen un tamaño determinado, por lo que dar, por ejemplo, deciles les dará información como $x\%$ de todos los pueblos son menores que el número determinado. Para los deciles $x=0,10,20,...,100$ . Puedes hacer un gráfico de esta tabla con los porcentajes en el eje de abscisas y los deciles en el eje de ordenadas.

3 votos

Citando a un amigo mío: si quieres "ocultar" algo en un artículo, ponlo en el texto y no en una figura. Si quieres asegurarte de que nadie lo lea, ponlo en una tabla.) Es una broma, por supuesto, pero tener un sitio web con mapas interactivos para que los usuarios hagan clic, etc., para obtener una tabla... ¡sería decepcionante!

0 votos

@nico, sí, pero a veces las tablas son mucho más informativas que los gráficos. Yo por ejemplo prefiero una tabla en lugar de un mal gráfico. En este caso la tabla todavía puede ser representada por el gráfico, y sugerí cuantiles porque no tienen problemas con los valores atípicos.

0 votos

Eso es lo que estoy haciendo actualmente (mostrar los deciles en un gráfico), pero después de mostrarlo a algunos de nuestros destinatarios, recibimos comentarios de que los gráficos no eran fáciles de entender.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X