Este es un ejercicio muy simple que tengo la esperanza de que puede ayudar a las personas con conocimientos limitados en el análisis estadístico (como yo). Estoy teniendo problemas para decidir qué análisis estadísticos puedo realizar (en R) para determinar si es o no mis datos están más cerca de un modelo lineal o de otro.
Por ejemplo: tengo las mediciones de sodio y cloruro en diversas soluciones diluidas:
#
Na <- c(1.56, 1.00, 1.60, 3.23, 2.02, 2.81, 2.09, 26.24, 1.59, 0.42)
Cl <- c(1.40, 0.91, 1.22, 2.67, 1.67, 3.01, 2.17, 27.42, 1.45, 0.51)
Por simplicidad, esta es una solución de dilución de la sal de mesa disuelta en agua o en agua de mar natural. Para cada caso, Cl/Na va a ser una relación específica que refleja la composición de la solución original. Podemos visualizar este:
plot(Na,Cl)
abline(0,1) # expected slope for table salt dissolved in water
abline(0,1.16) # expected slope for natural seawater.
Quiero saber que modelo, la sal de mesa en agua o agua de mar, es estadísticamente más preciso ajuste a los datos proporcionados. El análisis de regresión lineal en R da una línea de mejor ajuste con una pendiente de 1.05 (lm(Cl~Na)
), justo entre los dos modelos.
Así, que solución puedo más probabilidades de tener y por qué? La línea de mejor ajuste de la pendiente se aproxima más a la de la sal de mesa disuelta en agua, pero que no parece muy estadísticamente sonido. Los pensamientos?
Edit: @whuber mencionó que hay una anomalía en el conjunto de datos - en realidad, los datos proporcionados, es sólo un subconjunto de los datos originales. En realidad, hay cientos de puntos de datos entre la aparente valor atípico y el resto de los datos facilitados.
También, aquí es un log(Na)-log(Cl)
resumen de el conjunto de datos completo:
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
-0.46870 -0.06186 0.02654 0.02218 0.12780 0.47510 183
Edit2: en cuanto a la "verdadera naturaleza de mi investigación": La 'solución' en cuestión es probablemente una mezcla de sal de mesa agua y agua de mar natural. Lo que me gustaría hacer es encontrar una manera definitiva (a través de análisis estadísticos) para demostrar que soy más de uno o de otro. Tenía la esperanza de que mi simplificado pregunta/conjunto de datos daría una respuesta de la comunidad, pero parece que estaba fuera de la base. Si ayuda, un completo conjunto de datos está ahora alojado a continuación:
http://www.filedropper.com/clna
Si se examina la distribución de la completa de los datos muestra que tengo más Cl/Na acerca de 1.00, pero este no parece el sonido lo suficiente " para copia de seguridad de un argumento. La probabilidad de que tengo una solución, o el otro es desconocido. Tengo los datos en bruto y modelos relevantes para Cl Na a correr.
Para una aclaración, la pregunta original es todavía la que me gustaría resolver. Una alternativa pregunta podría ser: ¿Qué solución puedo tener más y qué tipo de análisis ¿puedo utilizar para llegar a esa conclusión?