57 votos

¿Cómo determinar si el eje Y de un gráfico debe empezar en cero?

Una forma habitual de "mentir con los datos" es utilizar una escala en el eje Y que haga parecer que los cambios son más significativos de lo que realmente son.

Cuando reviso publicaciones científicas, o los informes de laboratorio de los estudiantes, a menudo me siento frustrado por este "pecado de visualización de datos" (que creo que los autores cometen sin querer, pero que sigue dando lugar a una presentación engañosa).

Sin embargo, "empezar siempre el eje Y en cero" no es una regla rígida. Por ejemplo, Edward Tufte señala que en una serie temporal, la línea de base no es necesariamente cero:

En general, en una serie temporal, utilice una línea de base que muestre los datos y no el punto cero. Si el punto cero se produce razonablemente al trazar los datos, bien. Pero no gastes mucho espacio vertical vacío tratando de llegar al punto cero a costa de ocultar lo que ocurre en la propia línea de datos. (El libro Cómo mentir con la estadística se equivoca en este punto).

Para ver ejemplos, por todas partes, de ausencia de puntos cero en las series temporales, eche un vistazo a cualquier publicación de investigación científica importante. Los científicos quieren mostrar sus datos, no el cero.

La necesidad de contextualizar los datos es buena, pero el contexto no proviene de un espacio vertical vacío que llega hasta el cero, un número que ni siquiera aparece en un buen número de conjuntos de datos. En su lugar, para contextualizar, ¡muestre más datos en horizontal!

Quiero señalar la presentación engañosa en los artículos que reviso, pero no quiero ser un purista del eje cero.

¿Existe alguna directriz que indique cuándo hay que empezar el eje Y en cero y cuándo es innecesario y/o inapropiado? (Especialmente en el contexto del trabajo académico).

5 votos

Creo que el hecho de que incluir (no incluir) el 0 sea potencialmente engañoso depende fundamentalmente de la historia que se cuente.

2 votos

En una charla se puede utilizar la frase "nótese el cero muy suprimido" o algo similar para aportar honestidad a una cifra potencialmente engañosa. No me gusta tanto en el material impreso, pero en caso de necesidad también se puede utilizar.

0 votos

Para evitar todo esto, utilizo boxplots siempre que sea posible. No es necesario calcular las medias y las barras de error, y está repleto de información valiosa (por ejemplo, la distribución de los datos, la dispersión, la asimetría, el rango), todo en un solo gráfico. Además, se muestran los datos en bruto.

53voto

Nick Cox Puntos 22819
  • No utilices el espacio en un gráfico de forma que no ayude a la comprensión. El espacio es necesario para mostrar los datos.

  • Utiliza tu criterio científico (ingenieril, médico, social, empresarial, ...), así como tu criterio estadístico. (Si no eres el cliente o la clienta, habla con alguien del sector para hacerte una idea de lo que es interesante o importante, preferiblemente los que encargan el análisis).

  • Mostrar el cero en el $y$ eje si las comparaciones con el cero son fundamentales para el problema, o incluso de cierto interés.

Son tres reglas sencillas. (Nada excluye alguna tensión entre ellas en ocasiones).

Este es un ejemplo sencillo, pero los tres puntos se plantean: se mide la temperatura corporal de un paciente en Celsius, o en Fahrenheit, o incluso en kelvin: elija usted. ¿En qué sentido es útil o incluso lógico insistir en mostrar las temperaturas cero? De lo contrario, se ocultaría información importante, incluso crucial desde el punto de vista médico o fisiológico.

He aquí una historia real extraída de una presentación. Un investigador mostraba datos sobre la proporción de sexos en varios estados y territorios de la Unión en India. El gráfico era un diagrama de barras con todas las barras empezando en cero. Todas las barras tenían casi la misma longitud a pesar de algunas variaciones considerables. Eso era correcto, pero lo interesante era que las zonas eran diferentes a pesar de las similitudes, no que eran similares a pesar de las diferencias. Sugerí que la paridad entre machos y hembras (1 o 100 hembras/100 machos) era un nivel de referencia mucho más natural. (También estaría abierto a utilizar algún nivel global, como la media nacional, como referencia). Incluso algunos estadísticos que han oído esta pequeña historia han respondido a veces: "No; las barras deben empezar siempre en cero". Para mí eso no es mejor que un dogma irrelevante en tal caso. (También diría que los gráficos de puntos tienen tanto o más sentido para esos datos).

La mención de los gráficos de barras indica que el tipo de gráfico utilizado también es importante. Supongamos que para las temperaturas corporales un $y$ El eje va de 35 a 40 $^\circ$ C se elige por conveniencia para incluir todos los datos, de modo que el $y$ El eje "empieza" en 35. Está claro que las barras que empiezan en 35 serían una mala codificación de los datos. Pero en este caso el problema sería la elección inadecuada del elemento del gráfico, no el rango del eje mal elegido.

Un tipo de gráfico común, especialmente parece en algunas ciencias biológicas y médicas, muestra las medias u otros resúmenes mediante barras gruesas que empiezan en cero y los intervalos basados en el error estándar o la desviación estándar que indican la incertidumbre mediante barras finas. Estos gráficos detonantes o de dinamita, como han sido llamados por quienes los desaprueban, pueden ser populares en parte debido a la idea de que el cero siempre debe mostrarse. El efecto neto es enfatizar las comparaciones con el cero que a menudo carecen de interés o utilidad.

Algunas personas querrían mostrar el cero, pero también añadir un salto de escala para mostrar que la escala se interrumpe. Las modas cambian y la tecnología también. Hace décadas, cuando los investigadores dibujaban sus propios gráficos o delegaban la tarea en los técnicos, era más fácil pedir que se hiciera a mano. Ahora los programas de gráficos no suelen admitir interrupciones de escala, lo cual no me parece una pérdida. Incluso si lo hacen, se trata de una adición quisquillosa que puede desperdiciar una fracción moderada del área del gráfico.

Obsérvese que nadie insiste en la misma regla para el $x$ eje. ¿Por qué no? Si se muestran las fluctuaciones climáticas o económicas del último siglo, sería extraño que se dijera que la escala debe comenzar en el límite AC/CE o en cualquier otro origen.

Naturalmente, además de las tres reglas mencionadas, se aplica la regla número cero.

  • Hagas lo que hagas, sé muy claro. Etiquete sus ejes de forma coherente e informativa. Luego confíe en que los lectores atentos se fijarán en lo que ha hecho.

Por lo tanto, en este punto estoy muy de acuerdo con Edward Tufte, y en desacuerdo con Darrell Huff.

EDITADO 9 de mayo de 2016:

en lugar de intentar incluir invariablemente una línea de base 0 en todos sus gráficos, Utilizar la lógica y la significativo líneas de base en cambio

Cairo, A. 2016. El arte de la verdad: Datos, gráficos y mapas para la comunicación. San Francisco, CA: New Riders, p.136.

8 votos

Como un aparte de eso: Creo que la gente es más propensa a adherirse dogmáticamente a "empezar en cero" cuando los datos están representados por barras, con el argumento de que las barras muestran el área y el área es engañosa si no empieza en cero. En un Gráfico de puntos de Cleveland - que, de todos modos, suele ser una visualización más adecuada: no parece haber un argumento tan convincente para empezar en cero, y la gente parece estar más dispuesta a ser flexible en cuanto al punto de partida.

0 votos

@Silverfish De acuerdo; parece que hice puntos similares en una edición casi al mismo tiempo que comentabas.

4 votos

Gran respuesta. Hice esta pregunta en el contexto de la revisión de un artículo que utilizaba sistemáticamente rangos de ejes inapropiados (enfatizando variaciones insignificantes en los datos). Esta respuesta me hizo ver que lo que estaba realmente frustrado fue la falta de criterio (estadístico y de ingeniería) a la hora de entender e interpretar los datos, algo mucho más constructivo para comentar en una reseña que quejarse del rango de los ejes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X