Me gusta esta regla general:
Si necesita la línea para guiar el ojo (es decir, para mostrar una tendencia que sin la línea no se vería tan claramente), debe no pon la línea.
Los seres humanos son extremadamente buenos para reconocer patrones (estamos más bien del lado de ver tendencias que no existen que de pasar por alto una tendencia existente). Si no somos capaces de obtener la tendencia sin línea, podemos estar bastante seguros de que no se puede mostrar ninguna tendencia de forma concluyente en el conjunto de datos.
En cuanto al segundo gráfico, la única indicación de la incertidumbre de sus puntos de medición son los dos cuadrados rojos de C:O 1,2 a 700 °C. La dispersión de estos dos significa que no aceptaría, por ejemplo
- que haya una tendencia en absoluto para C:O 1.2
- que hay una diferencia entre 2,0 y 3,6
- y seguro que los modelos curvos se ajustan demasiado a los datos.
sin que se den muy buenas razones. Sin embargo, eso sería de nuevo un modelo.
edit: respuesta al comentario de Ivan:
Soy químico y diría que no hay medición sin error, lo que es aceptable dependerá del experimento y del instrumento.
Esta respuesta no está en contra de mostrar el error experimental, sino que está a favor de mostrarlo y tenerlo en cuenta.
La idea que subyace a mi razonamiento es que el gráfico muestra exactamente una medición repetida, por lo que cuando la discusión es cómo de complejo debe ser el ajuste de un modelo (es decir, línea horizontal, línea recta, cuadrática, ...) esto nos puede dar una idea del error de medición. En tu caso, esto significa que no serías capaz de ajustar una cuadrática significativa (spline), incluso si tuvieras un modelo duro (por ejemplo, ecuación termodinámica o cinética) que sugiriera que debería ser cuadrática - simplemente no tienes suficientes datos.
Para ilustrar esto:
df <-data.frame (T = c ( 700, 700, 800, 900, 700, 800, 900, 700, 800, 900),
C.to.O = factor (c ( 1.2, 1.2, 1.2, 1.2, 2 , 2 , 2 , 3.6, 3.6, 3.6)),
tar = c (21.5, 18.5, 19.5, 19, 15.5, 15 , 6 , 16.5, 9, 9))
Aquí hay un ajuste lineal junto con su intervalo de confianza del 95% para cada una de las relaciones C:O:
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm") +
facet_wrap (~C.to.O)
Obsérvese que para las relaciones C:O más elevadas el intervalo de confianza se sitúa muy por debajo de 0. Esto significa que los supuestos implícitos del modelo lineal son erróneos. Sin embargo, se puede concluir que los modelos lineales para los contenidos de C:O más altos ya están sobreajustados.
Por lo tanto, retrocediendo y ajustando sólo un valor constante (es decir, sin dependencia de T):
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm", formula = y ~ 1) +
facet_wrap (~C.to.O)
El complemento es modelar sin dependencia de C:O:
ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) +
stat_smooth (method = "lm", formula = y ~ x)
Aun así, el intervalo de confianza cubriría una línea horizontal o incluso ligeramente ascendente.
Se podría continuar e intentar, por ejemplo, permitir diferentes desplazamientos para las tres relaciones C:O, pero utilizando pendientes iguales.
Sin embargo, ya unas cuantas mediciones más mejorarían drásticamente la situación: fíjese en lo estrechos que son los intervalos de confianza para C:O = 1 : 1, cuando se tienen 4 mediciones en lugar de sólo 3.
Conclusión: si se comparan mis puntos de las conclusiones de las que sería escéptico, ¡estaban leyendo demasiado en los pocos puntos disponibles!
5 votos
Los puntos son los datos. Las curvas que se ajustan a los puntos no son los datos. Así que si tu intención es mostrar los datos....
3 votos
Como dice JeffE. Para ser aún más explícito: las curvas que has trazado son un modelo, porque usted asumió una forma particular al dibujarlos, y tuvo algún razonamiento para esta forma. Este razonamiento se basa en un modelo concreto.
1 votos
He enviado una solicitud de migración; esto realmente pertenece a la validación cruzada, no aquí.
2 votos
Creo que podría ser on-topic en CrossValidated, pero definitivamente también está en el tema aquí . La migración sólo debe ser considerada si está fuera del tema aquí, (hay preguntas que serían on-topic en dos sitios, eso está bien). Es una pregunta real con respuestas válidas, es definitivamente relevante para muchos académicos.
0 votos
Además, el FAQ de CrossValidated dice: "análisis estadístico, aplicado o teórico; diseño de experimentos; recopilación de datos; minería de datos; aprendizaje automático; visualización de datos; teoría de la probabilidad; estadística matemática; informática estadística y basada en datos". En mi opinión, esta pregunta no se ajusta a ninguna de las dos, no es realmente análisis estadístico sino la presentación de los datos.
0 votos
@F'x Parece que te centras en una distinción inexistente entre "visualizar" y "presentar" los datos: esta pregunta es bastante on-topic en CV. ¿Podrías sugerir un lenguaje para que nuestras FAQ sean más claras en este sentido?
2 votos
Su segundo gráfico es dudoso. Si hubieras unido los puntos con líneas rectas tendrías (quizás) un argumento para la claridad visual. Pero utilizando una curva estás afirmando que el pico de la línea azul está a 740°, y el mínimo de la línea púrpura está a 840°, aunque no tengas datos experimentales a esas temperaturas. Introducir mínimos/máximos fuera de los datos medidos es una bandera roja.