8 votos

Centrado medio o no en el contexto de mínimos cuadrados parciales

En mi proyecto actual, estoy usando la regresión PLS en los espectros de infrarrojo (FTIR). Para esto estoy usando R y el pls función de la plsr paquete. pls siempre significa que los centros, tanto los datos de entrada y los espectros de infrarrojo. A la hora de predecir el uso de una cocina equipada PLS modelo, los medios de módulos durante el proceso de estimación se restarán de los datos.

En una situación particular, esto no es un efecto deseable para mí, como la media para cada uno de los INFRARROJOS número de onda no es constante entre las mediciones. Esto es causado por el hecho de que la longitud de la trayectoria del rayo de luz que pasa a través de la muestra puede cambiar, ya sea debido a una máquina en particular tiene una diferente longitud de ruta de acceso de la máquina que se utiliza para ajustar el modelo, o porque la longitud de la trayectoria cambia lentamente con el tiempo debido al desgaste y el rasgón en la celda de medición.

Por no decir el centrado de los datos, los medios terminan la primera PLS factor. Esto permite un escalado lineal de la media, teniendo en cuenta los efectos lineales, tales como la célula de la longitud de la ruta. Esto hace que el modelo más robusto en situaciones particulares. Soy consciente de que podríamos corregir los espectros IR primero, y, a continuación, utilizar al máximo los medios. Pero, nos gustaría poner esto en el modelo ajustado.

He enviado un e-mail al responsable de la PLSR paquete acerca de por qué el paquete no apoyo de la desconexión de la media de centrado. La respuesta fue:

No, eso no es posible. En teoría, si uno no tiene centro, no es PLSR.

Otras herramientas que se utilizan en el campo de la espectroscopía (Gramos, Posicionadora) permiten la conmutación de la media de centrado. Y en la situación anterior, creo que la desactivación de media centrado tiene una gran ventaja.

Ahora mi pregunta concreta:

Es PLS sin decir centrado todavía PLS, ¿hay algún teórico o práctico de razones para no hacerlo?

6voto

theGD Puntos 147

Hay principalmente dos algoritmos para la PLSR a saber NIPALS y SIMPLS.

SIMPLS algoritmo es generalmente más rápido aún numéricamente menos estable(en la mayoría de los casos la diferencia es muy pequeña). El artículo original de SIMPLS proporciona los pasos que se inicia con una media de centrado tanto en X y Y. El mantenedor del paquete probablemente depende de estos pasos. Sin embargo, directamente al citar el artículo:

enter image description here

Con el algoritmo NIPALS, en este mismo artículo esencial que los autores menciona la media de centrado se realiza de forma predeterminada para hacer los cálculos más fácil y proporciona ninguna otra información específica.

Por último, no es este artículo el que directamente las preguntas que el razonamiento detrás de la media de centrado y proporciona algunos estudios de caso. Los autores señalan exactamente lo que usted ha observado. En algunos casos significa la capacidad puede disminuir la capacidad predictiva del modelo. Mientras que permite un fácil cálculo de término de intersección, yo creo que es seguro para omitir el centrado.

Dado que todos los algoritmos que básicamente lleva a cabo autovalor de descomposición de matrices de covarianza que involucra a distancia de las variables a partir de sus medios, aún se llama PLS sin decir-centrado. Sin embargo, lo que requiere la alteración de su código.

Las opciones de los programas que se han mencionado pueden permitir que salte de centrado, pero estas opciones pueden estar disponibles para los datos que ya está centrado. En otras palabras, se podría estar usando todavía

X' * Y

en lugar de

(X - mean(x))' * (Y - mean(Y))

para el cálculo de la matriz de covarianza, por ejemplo.

Los artículos:

SIMPLS: De Jong, Sijmen. "SIMPLS: un enfoque alternativo al de mínimos cuadrados parciales de regresión." Quimiometría inteligentes y sistemas de laboratorio de 18, no. 3 (1993): 251-263. Harvard

PLS tutorial con NIPALS: Geladi, Pablo, y Bruce R. Kowalski. "De mínimos cuadrados parciales de regresión: un tutorial." Analytica chimica acta 185 (1986): 1-17.

Significa centrarse en PLS: Seasholtz, Mary Beth, y Bruce R. Kowalski. "El efecto de la media centrado en la predicción de la calibración multivariante." Diario de Quimiometría 6, no. 2 (1992): 103-111. Harvard

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X