¿Comparación del modelo lineal - que hace mis datos mejor?

Question

¿Comparación del modelo lineal - que hace mis datos mejor?

Preguntado el 28 de Abril, 2016: Cuando se hizo la pregunta
193 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Este es un ejercicio muy simple que tengo la esperanza de que puede ayudar a las personas con conocimientos limitados en el análisis estadístico (como yo). Estoy teniendo problemas para decidir qué análisis estadísticos puedo realizar (en R) para determinar si es o no mis datos están más cerca de un modelo lineal o de otro.

Por ejemplo: tengo las mediciones de sodio y cloruro en diversas soluciones diluidas:

#
Na <- c(1.56, 1.00, 1.60, 3.23, 2.02, 2.81, 2.09, 26.24, 1.59, 0.42)
Cl <- c(1.40, 0.91, 1.22, 2.67, 1.67, 3.01, 2.17, 27.42, 1.45, 0.51)

Por simplicidad, esta es una solución de dilución de la sal de mesa disuelta en agua o en agua de mar natural. Para cada caso, Cl/Na va a ser una relación específica que refleja la composición de la solución original. Podemos visualizar este:

plot(Na,Cl)
abline(0,1)    # expected slope for table salt dissolved in water
abline(0,1.16) # expected slope for natural seawater.

Quiero saber que modelo, la sal de mesa en agua o agua de mar, es estadísticamente más preciso ajuste a los datos proporcionados. El análisis de regresión lineal en R da una línea de mejor ajuste con una pendiente de 1.05 (lm(Cl~Na)), justo entre los dos modelos.

Así, que solución puedo más probabilidades de tener y por qué? La línea de mejor ajuste de la pendiente se aproxima más a la de la sal de mesa disuelta en agua, pero que no parece muy estadísticamente sonido. Los pensamientos?

Edit: @whuber mencionó que hay una anomalía en el conjunto de datos - en realidad, los datos proporcionados, es sólo un subconjunto de los datos originales. En realidad, hay cientos de puntos de datos entre la aparente valor atípico y el resto de los datos facilitados.

También, aquí es un log(Na)-log(Cl) resumen de el conjunto de datos completo:

    Min.  1st Qu.   Median     Mean  3rd Qu.     Max.     NA's 
-0.46870 -0.06186  0.02654  0.02218  0.12780  0.47510      183

Edit2: en cuanto a la "verdadera naturaleza de mi investigación": La 'solución' en cuestión es probablemente una mezcla de sal de mesa agua y agua de mar natural. Lo que me gustaría hacer es encontrar una manera definitiva (a través de análisis estadísticos) para demostrar que soy más de uno o de otro. Tenía la esperanza de que mi simplificado pregunta/conjunto de datos daría una respuesta de la comunidad, pero parece que estaba fuera de la base. Si ayuda, un completo conjunto de datos está ahora alojado a continuación:

http://www.filedropper.com/clna

Si se examina la distribución de la completa de los datos muestra que tengo más Cl/Na acerca de 1.00, pero este no parece el sonido lo suficiente " para copia de seguridad de un argumento. La probabilidad de que tengo una solución, o el otro es desconocido. Tengo los datos en bruto y modelos relevantes para Cl Na a correr.

Para una aclaración, la pregunta original es todavía la que me gustaría resolver. Una alternativa pregunta podría ser: ¿Qué solución puedo tener más y qué tipo de análisis ¿puedo utilizar para llegar a esa conclusión?

Preguntado el 28 de Abril, 2016 por Kutyel

Answer 1

1 Respuestas

Answer 2

1voto

Kutyel Puntos 153

Así que he estado trabajando en la comprensión de este problema, mientras que en los últimos 20 horas o así. Ha habido mucha discusión útil, pero no hay respuesta definitiva. He encontrado un par de recursos que pueden ayudar a otros a entender por qué he elegido para ir a esta ruta.

1) Suelo Equilibrios: ¿Qué ocurre con el ácido de la lluvia? Por Sharon Anthony, Michael Beug, Roxanne Hulet, y George Lisensky es una buena química de aprendizaje libro y ya lo creo que para ser una explicación detallada de cómo utilizar un t-test, pero no necesariamente por qué usar uno.

2) Este blog en más de minitab.com explica cuándo usar un t-test, así como información adicional sobre cómo usarlo.

Creo que el trampolín aquí es que según el post original, estoy esperando una pendiente de 1.00 o 1.16, dependiendo de la solución que tengo, si me gráfico de dispersión de Na y Cl. Otra manera de decirlo es que estoy esperando un ratio de Cl Na de 1.00 o 1.16 para cada una de las muestras en el conjunto. Esto me da dos hipótesis a probar en mi t-test.

La prueba de t se define como:

$t=\frac{|x-known| * \sqrt N}s$

donde $t$ le dará un valor para la comparación de la experimental significa el valor conocido, a la que nos podemos comparar a un tabulado de t de la tabla para nuestra correspondientes grados de libertad ($N$) e intervalo de confianza (permite recoger 95%). $s$ es la desviación estándar, $x$ es la media de Cl Na relación de este ejemplo, y $known$ es el valor conocido o hipótesis que se desea probar:

Para la hipótesis 1) la proporción de Cl Na es igual a 1,16 para cada muestra.

Nuestra media de Cl Na relación de $x$ (en R) mean(Cl/Na) o de 0.95. Del mismo modo, $s$ = sd(Cl/Na) o de 0.14. Ahora bien, si nos conectamos y marchan en nuestra prueba de t de la ecuación, se obtiene un $t$ de 4.5. El correspondiente $t$ en el tabulado en la tabla de confianza del 95% y $N = 9$ es de 2.26. Nuestro calculado $t$ es mayor que el tabulado valor de t para la media Cl/Na es diferente de 1.16 a un 95% de intervalo de confianza.

Para la hipótesis 2) la proporción de Cl Na es igual a 1.00 por cada muestra.

Vamos a utilizar los mismos pasos que en la hipótesis 1 (sólo cambio de $known$), lo que da $t = 1.07$. 1.07 es menor que el valor de t tabulado de 2.26 por el mismo $N$ e intervalo de confianza de 95%, por lo que podemos decir que nuestra media Cl/Na no es diferente de 1.00 a un 95% de intervalo de confianza.

Así que para responder a la pregunta, la más probable es que tenga una sal de mesa disuelta en una solución de agua basado en un t-test. Tengo la esperanza de que algún stat que los entusiastas comentarios sobre si esto es o no es una respuesta válida!

Edit: 9 grados de libertad con 10 muestras.

Edit2: R t.test(Cl/Na,mu=1) al parecer no llega a la misma conclusión que yo hice anteriormente. No sé por qué.

Respondido el 29 de Abril, 2016 por Kutyel (153 Puntos )

¿Comparación del modelo lineal - que hace mis datos mejor?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Comparación del modelo lineal - que hace mis datos mejor?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: