10 votos

Representación de los datos experimentales

Tengo una discusión con mi asesor sobre la visualización de datos. Afirma que cuando se representan los resultados experimentales, los valores deben trazarse con " marcadores ", como se presenta en la imagen inferior. Mientras que las curvas sólo deben representar un " modelo "

Markers.png

Yo, en cambio, creo que una curva es innecesaria en muchos casos para facilitar la legibilidad, como se muestra en la segunda imagen de abajo:

Lines.png

¿Me equivoco yo o mi profesor? Si es esto último, ¿cómo puedo explicárselo?

5 votos

Los puntos son los datos. Las curvas que se ajustan a los puntos no son los datos. Así que si tu intención es mostrar los datos....

3 votos

Como dice JeffE. Para ser aún más explícito: las curvas que has trazado son un modelo, porque usted asumió una forma particular al dibujarlos, y tuvo algún razonamiento para esta forma. Este razonamiento se basa en un modelo concreto.

1 votos

He enviado una solicitud de migración; esto realmente pertenece a la validación cruzada, no aquí.

12voto

Como dice JeffE: los puntos son los datos . En general, es bueno evitar añadir curvas en la medida de lo posible. Una de las razones para añadir curvas es que hace que el gráfico sea más agradable a la vista, al hacer que los puntos y la tendencia entre los puntos sean más legibles. Esto es especialmente cierto si tiene pocos puntos de datos.

Sin embargo, hay otras formas de mostrar datos dispersos que puede ser mejor que un gráfico de dispersión. Una posibilidad es un gráfico de barras, en el que las distintas barras son mucho más visibles que los puntos individuales. Un código de colores (similar al que ya tiene en su figura) ayudará a ver las tendencias de cada serie de datos (o las series de datos podrían dividirse y presentarse una al lado de la otra en gráficos de barras individuales más pequeños).

Por último, si realmente quieres añadir algún tipo de línea entre tus símbolos, hay dos casos:

  1. Si espera que un determinado modelo sea válido para sus datos (lineal, armónico, lo que sea), debe ajustar sus datos al modelo, explicar el modelo en el texto y comentar la concordancia entre los datos y el modelo.

  2. Si no tiene ningún modelo razonable para los datos, no debe incluir supuestos adicionales en su gráfico. En concreto, esto significa que no debes incluir ningún tipo de línea entre tus puntos, excepto las líneas rectas. Las bonitas interpolaciones "spline fit" que Excel (y otros programas informáticos) puede dibujar son una mentira . No hay ninguna razón válida para que tus datos sigan ese modelo matemático en particular, por lo que deberías ceñirte a los segmentos de líneas rectas.

    Además, en ese caso puede estar bien añadir un descargo de responsabilidad en algún lugar del pie de figura, como "las líneas son sólo guías para el ojo".

2 votos

Este es un excelente consejo menos el comentario sobre que los bares son más apropiados. Para un debate similar relacionado con esto, véase Gráficos alternativos a los gráficos de "barra de mando" . Imagínese que el diagrama indicado por el OP es un gráfico de barras agrupadas, sería muy difícil visualizar la tendencia a través de los rangos de temperatura. Una forma de hacer que los puntos sean más visibles es desplazarlos a lo largo del eje x, y el trabajo de Cleveland sugiere que deberíamos preferir los puntos a las barras de todos modos.

0 votos

@Andy W, ¿a qué te refieres con "hacerlos saltar a lo largo del eje x"?

1 votos

@IvanP., me refiero a que en lugar de hacer que los puntos se fijen en ese valor concreto de la abscisa los desplace a la derecha o a la izquierda ligeramente para que los puntos no se tapen entre sí. En el resto del gráfico debería quedar claro que realmente se refieren a valores exactos de los grupos en el eje x, y el ligero desplazamiento no debería tener efecto en la visualización de la tendencia entre valores.

11voto

cbeleites Puntos 12461

Me gusta esta regla general:

Si necesita la línea para guiar el ojo (es decir, para mostrar una tendencia que sin la línea no se vería tan claramente), debe no pon la línea.

Los seres humanos son extremadamente buenos para reconocer patrones (estamos más bien del lado de ver tendencias que no existen que de pasar por alto una tendencia existente). Si no somos capaces de obtener la tendencia sin línea, podemos estar bastante seguros de que no se puede mostrar ninguna tendencia de forma concluyente en el conjunto de datos.

En cuanto al segundo gráfico, la única indicación de la incertidumbre de sus puntos de medición son los dos cuadrados rojos de C:O 1,2 a 700 °C. La dispersión de estos dos significa que no aceptaría, por ejemplo

  • que haya una tendencia en absoluto para C:O 1.2
  • que hay una diferencia entre 2,0 y 3,6
  • y seguro que los modelos curvos se ajustan demasiado a los datos.

sin que se den muy buenas razones. Sin embargo, eso sería de nuevo un modelo.


edit: respuesta al comentario de Ivan:

Soy químico y diría que no hay medición sin error, lo que es aceptable dependerá del experimento y del instrumento.

Esta respuesta no está en contra de mostrar el error experimental, sino que está a favor de mostrarlo y tenerlo en cuenta.

La idea que subyace a mi razonamiento es que el gráfico muestra exactamente una medición repetida, por lo que cuando la discusión es cómo de complejo debe ser el ajuste de un modelo (es decir, línea horizontal, línea recta, cuadrática, ...) esto nos puede dar una idea del error de medición. En tu caso, esto significa que no serías capaz de ajustar una cuadrática significativa (spline), incluso si tuvieras un modelo duro (por ejemplo, ecuación termodinámica o cinética) que sugiriera que debería ser cuadrática - simplemente no tienes suficientes datos.

Para ilustrar esto:

df <-data.frame (T      =         c ( 700,  700,  800, 900,  700, 800, 900, 700, 800, 900), 
                 C.to.O = factor (c ( 1.2,  1.2,  1.2, 1.2,  2  , 2  , 2  , 3.6, 3.6, 3.6)),
                 tar    =         c (21.5, 18.5, 19.5, 19,  15.5, 15 , 6  , 16.5, 9, 9))

Aquí hay un ajuste lineal junto con su intervalo de confianza del 95% para cada una de las relaciones C:O:

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm") + 
    facet_wrap (~C.to.O)

linear model

Obsérvese que para las relaciones C:O más elevadas el intervalo de confianza se sitúa muy por debajo de 0. Esto significa que los supuestos implícitos del modelo lineal son erróneos. Sin embargo, se puede concluir que los modelos lineales para los contenidos de C:O más altos ya están sobreajustados.

Por lo tanto, retrocediendo y ajustando sólo un valor constante (es decir, sin dependencia de T):

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm", formula = y ~ 1) + 
    facet_wrap (~C.to.O) 

no T dependence

El complemento es modelar sin dependencia de C:O:

ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + 
    stat_smooth (method = "lm", formula = y ~ x) 

no C:O dependence

Aun así, el intervalo de confianza cubriría una línea horizontal o incluso ligeramente ascendente.

Se podría continuar e intentar, por ejemplo, permitir diferentes desplazamientos para las tres relaciones C:O, pero utilizando pendientes iguales.

Sin embargo, ya unas cuantas mediciones más mejorarían drásticamente la situación: fíjese en lo estrechos que son los intervalos de confianza para C:O = 1 : 1, cuando se tienen 4 mediciones en lugar de sólo 3.

Conclusión: si se comparan mis puntos de las conclusiones de las que sería escéptico, ¡estaban leyendo demasiado en los pocos puntos disponibles!

0 votos

Tienes un buen punto de vista. Sin embargo, en ingeniería, el error experimental (incertidumbre) es muy común y se asume que un error relativo del 3~5% es aceptable. Aun así, se me exige que muestre los resultados MAX, MIN y AVG. Así que en mi caso los marcadores son los extremos y la línea es la media.

0 votos

Un ejemplo muy bueno y extremadamente útil (has conseguido que me interese por R). Así que, por supuesto, lo correcto es conseguir más puntos de datos.

6voto

Hank Puntos 253

1-Su profesor está haciendo un punto válido.

2- Su trama definitivamente no aumenta la legibilidad IMHO.

3-Desde mi punto de vista, este no es el foro adecuado para hacer este tipo de preguntas y deberías hacerlas en el foro de validación cruzada.

0 votos

Me interesa saber dónde está el problema de legibilidad y cualquier sugerencia de mejora es muy bienvenida

1voto

Carl McTague Puntos 111

A veces, unir puntos tiene sentido, especialmente si son muy densos.

Y entonces puede tener sentido interpolar (por ejemplo, con un spline ). Sin embargo, si se trata de algo más avanzado que una spline de orden uno (para la cual es visiblemente obvio que sólo se trata de unir puntos), es necesario mencionarlo.

Sin embargo, para el caso de unos pocos puntos, o una docena, no es así. Basta con dejar los puntos como están, con marcadores. Si quieres ajustar una línea (u otra curva), es un modelo. Puede añadirlo, pero sea explícito: por ejemplo, "la línea representa un ajuste de regresión lineal".

0voto

rutherford Puntos 165

Creo que hay casos en los que uno no propone un modelo explícito, pero necesita algún tipo de guía para el ojo. Mi regla es entonces evitar las curvas como la peste y ceñirse a las líneas rectas a trozos entre los puntos sucesivos de una serie.

Por un lado, este supuesto es más obvio para los lectores. Además, el hecho de que los datos sean tan puntuales es bueno para evitar que los lectores asuman tendencias que no están respaldadas por los datos. En todo caso, esto sólo pone de manifiesto el ruido y los valores atípicos.

De lo que desconfío es del uso superficial (no riguroso, no explícito) de splines, cuadráticas, regresión, etc. Muy a menudo esto hace que parezca que hay tendencias donde no las hay. Un buen ejemplo de abuso son las curvas dibujadas por @Ivan. Con 3 puntos de datos no creo que sea evidente ningún máximo o mínimo en el modelo subyacente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X