-
No utilices el espacio en un gráfico de forma que no ayude a la comprensión. El espacio es necesario para mostrar los datos.
-
Utiliza tu criterio científico (ingenieril, médico, social, empresarial, ...), así como tu criterio estadístico. (Si no eres el cliente o la clienta, habla con alguien del sector para hacerte una idea de lo que es interesante o importante, preferiblemente los que encargan el análisis).
-
Mostrar el cero en el $y$ eje si las comparaciones con el cero son fundamentales para el problema, o incluso de cierto interés.
Son tres reglas sencillas. (Nada excluye alguna tensión entre ellas en ocasiones).
Este es un ejemplo sencillo, pero los tres puntos se plantean: se mide la temperatura corporal de un paciente en Celsius, o en Fahrenheit, o incluso en kelvin: elija usted. ¿En qué sentido es útil o incluso lógico insistir en mostrar las temperaturas cero? De lo contrario, se ocultaría información importante, incluso crucial desde el punto de vista médico o fisiológico.
He aquí una historia real extraída de una presentación. Un investigador mostraba datos sobre la proporción de sexos en varios estados y territorios de la Unión en India. El gráfico era un diagrama de barras con todas las barras empezando en cero. Todas las barras tenían casi la misma longitud a pesar de algunas variaciones considerables. Eso era correcto, pero lo interesante era que las zonas eran diferentes a pesar de las similitudes, no que eran similares a pesar de las diferencias. Sugerí que la paridad entre machos y hembras (1 o 100 hembras/100 machos) era un nivel de referencia mucho más natural. (También estaría abierto a utilizar algún nivel global, como la media nacional, como referencia). Incluso algunos estadísticos que han oído esta pequeña historia han respondido a veces: "No; las barras deben empezar siempre en cero". Para mí eso no es mejor que un dogma irrelevante en tal caso. (También diría que los gráficos de puntos tienen tanto o más sentido para esos datos).
La mención de los gráficos de barras indica que el tipo de gráfico utilizado también es importante. Supongamos que para las temperaturas corporales un $y$ El eje va de 35 a 40 $^\circ$ C se elige por conveniencia para incluir todos los datos, de modo que el $y$ El eje "empieza" en 35. Está claro que las barras que empiezan en 35 serían una mala codificación de los datos. Pero en este caso el problema sería la elección inadecuada del elemento del gráfico, no el rango del eje mal elegido.
Un tipo de gráfico común, especialmente parece en algunas ciencias biológicas y médicas, muestra las medias u otros resúmenes mediante barras gruesas que empiezan en cero y los intervalos basados en el error estándar o la desviación estándar que indican la incertidumbre mediante barras finas. Estos gráficos detonantes o de dinamita, como han sido llamados por quienes los desaprueban, pueden ser populares en parte debido a la idea de que el cero siempre debe mostrarse. El efecto neto es enfatizar las comparaciones con el cero que a menudo carecen de interés o utilidad.
Algunas personas querrían mostrar el cero, pero también añadir un salto de escala para mostrar que la escala se interrumpe. Las modas cambian y la tecnología también. Hace décadas, cuando los investigadores dibujaban sus propios gráficos o delegaban la tarea en los técnicos, era más fácil pedir que se hiciera a mano. Ahora los programas de gráficos no suelen admitir interrupciones de escala, lo cual no me parece una pérdida. Incluso si lo hacen, se trata de una adición quisquillosa que puede desperdiciar una fracción moderada del área del gráfico.
Obsérvese que nadie insiste en la misma regla para el $x$ eje. ¿Por qué no? Si se muestran las fluctuaciones climáticas o económicas del último siglo, sería extraño que se dijera que la escala debe comenzar en el límite AC/CE o en cualquier otro origen.
Naturalmente, además de las tres reglas mencionadas, se aplica la regla número cero.
- Hagas lo que hagas, sé muy claro. Etiquete sus ejes de forma coherente e informativa. Luego confíe en que los lectores atentos se fijarán en lo que ha hecho.
Por lo tanto, en este punto estoy muy de acuerdo con Edward Tufte, y en desacuerdo con Darrell Huff.
EDITADO 9 de mayo de 2016:
en lugar de intentar incluir invariablemente una línea de base 0 en todos sus gráficos, Utilizar la lógica y la significativo líneas de base en cambio
Cairo, A. 2016. El arte de la verdad: Datos, gráficos y mapas para la comunicación. San Francisco, CA: New Riders, p.136.
5 votos
Creo que el hecho de que incluir (no incluir) el 0 sea potencialmente engañoso depende fundamentalmente de la historia que se cuente.
2 votos
En una charla se puede utilizar la frase "nótese el cero muy suprimido" o algo similar para aportar honestidad a una cifra potencialmente engañosa. No me gusta tanto en el material impreso, pero en caso de necesidad también se puede utilizar.
0 votos
Para evitar todo esto, utilizo boxplots siempre que sea posible. No es necesario calcular las medias y las barras de error, y está repleto de información valiosa (por ejemplo, la distribución de los datos, la dispersión, la asimetría, el rango), todo en un solo gráfico. Además, se muestran los datos en bruto.
1 votos
@Stefan Los gráficos de caja pueden ser útiles. Es impar, sin embargo, que incluso algunos libros de texto explican el ANOVA y luego muestran los gráficos de caja. Para ello, las medias, si no las barras de error, son ciertamente relevantes y deberían ser informativas. Dependiendo de la variedad, muchos gráficos de caja hacen un trabajo muy pobre para mostrar los datos en bruto, ya que sólo los resumen. Pero hay mejoras que ayudan, por ejemplo, los gráficos de caja de cuantiles. Sin embargo, en este contexto, tenga en cuenta que mostrar las medias y las barras de error no le obliga a mostrar $y = 0$ si está fuera del rango de los datos.
1 votos
@NickCox ¡gracias por tu comentario! Estoy de acuerdo en que después de El ANOVA se ha realizado mostrando las medias y las barras de error tiene más sentido. Sin embargo, antes de realizar cualquier análisis, creo que los gráficos de caja son más informativos y dan información sobre el aspecto de los datos y si el ANOVA elegido puede ser apropiado o no. "Mentir con los datos" ya podría ocurrir cuando, por ejemplo, se eligen pruebas paramétricas pero los datos no cumplen los supuestos requeridos. Por eso, a mí, como lector de estudios científicos, siempre me gusta ver los boxplots para poder decidirme por los resultados presentados.
0 votos
También me doy cuenta de que mi comentario no se refiere a la pregunta del PO, a la que has respondido muy detalladamente, pero está relacionado con la visualización de datos y, por tanto, pensé que merecía la pena mencionarlo.
0 votos
@Stefan Estoy de acuerdo. La función principal de los gráficos de caja puede ser, en efecto, señalar que los datos no están (todavía) en la forma adecuada para el análisis previsto.