Processing math: 100%

2 votos

¿Cómo determinar la significación estadística de una variable independiente mediante dos variables dependientes?

(Originalmente hice una pregunta de sintaxis en stackoverflow aquí Pero, además de una respuesta, me dijeron que mi método estadístico en sí no era muy bueno, ¡así que ahora estoy aquí!)

Sin entrar demasiado en detalle, hicimos diferentes tratamientos químicos a una muestra y tomamos datos espectroscópicos después de cada vez (tratamiento = línea en los datos de abajo). Quiero saber estadísticamente en qué longitud de onda tuvo efecto. Los valores bajo cada número de línea son sus datos de absorbancia.

Mi objetivo es ser capaz de mirar a través de cada longitud de onda (fila) y determinar si los cambios en la absorbancia pueden ser explicados por los tratamientos. r^2 sonaba el mejor para el trabajo, pero ahora no estoy tan seguro. Para que quede claro, las longitudes de onda están siendo tratados independientes unos de otros en este punto (pero con el tiempo me gustaría trazar cualquier variable estadística que uso por longitud de onda para ver las tendencias).

Las 5 primeras longitudes de onda del marco de datos tienen este aspecto:

  Wavelength    Line_1    Line_2    Line_3    Line_4    Line_5    Line_6    Line_7
1       0400 0.4054731 0.3193632 0.2667026 0.8494675 0.2394639 0.2936054 0.2453124
2       0402 0.4048527 0.3195507 0.2693250 0.8664931 0.2380499 0.2931895 0.2437657
3       0404 0.4041760 0.3226145 0.2731347 0.8756971 0.2338797 0.2876017 0.2432391
4       0406 0.4079322 0.3264623 0.2750645 0.8770746 0.2273580 0.2866682 0.2476563
5       0408 0.4158769 0.3271127 0.2790707 0.8770176 0.2268334 0.2947697 0.2567014

¿Cómo enfocaría alguno de ustedes este problema?

30/06 edición He aquí una versión transpuesta de los datos (excluyendo ~3500 columnas más):

 dataPoint    0400        0402        0404        0406         408
1   Line_1  0.4054731   0.4048527   0.404176    0.4079322   0.4158769
2   Line_2  0.3193632   0.3195507   0.3226145   0.3264623   0.3271127
3   Line_3  0.2667026   0.269325    0.2731347   0.2750645   0.2790707
4   Line_4  0.8494675   0.8664931   0.8756971   0.8770746   0.8770176
5   Line_5  0.2394639   0.2380499   0.2338797   0.227358    0.2268334
6   Line_6  0.2936054   0.2931895   0.2876017   0.2866682   0.2947697
7   Line_7  0.2453124   0.2437657   0.2432391   0.2476563   0.2567014

1voto

cbeleites Puntos 12461

Ideas aproximadas:

Si cree que puede esperar razonablemente una correlación lineal entre los espectros (de absorbancia) y el ciclo de lavado o el ciclo de lavado logarítmico (el lavado cero funcionaría entonces como línea de base), podría probar con la regresión PLS.
Con PLS es bastante fácil realizar un bootstrap de las muestras y generar así distribuciones para los patrones de coeficientes sobre el número de onda y comprobar si la distribución se aleja suficientemente de cero.
También puede consultar el trabajo de Alessandro Olivieri para ver si dispone de expresiones analíticas para calcular la significación, pero, según tengo entendido, eso no tendría en cuenta la estructura muestra x lavado.

Si PLS es demasiado restrictivo, MCR-ALS puede ser otra posibilidad: en este caso, no se requeriría una relación exactamente lineal con el lavado (o el logaritmo del lavado), pero se puede poner la restricción de que sólo las intensidades decrecientes cumplan los requisitos.

En mi opinión, la significación es muy difícil en este caso, debido a las correlaciones físicas de los espectros. Se puede evitar que las longitudes de onda vecinas estén correlacionadas observando las integrales de banda, pero eso nos dejará con la correlación entre, por ejemplo, simétricas y anti-simétricas y las respectivas vibraciones de deformación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X