1 votos

¿Cómo se determina el efecto de una variable predictiva simple tras un análisis PLS?

Así pues, estoy ejecutando PLS en un conjunto de datos genéticos con información fenotípica y genotípica. Tengo unos 1000 predictores binarios (X), que representan marcadores moleculares, para cada individuo. Mis variables indicadoras (Y) son el rendimiento en libras por acre de cada individuo.

Estoy prediciendo el rendimiento (Y) mediante marcadores moleculares (X) con unas 3 variables latentes. He realizado las predicciones y estoy satisfecho con la capacidad de predicción del modelo en función del genotipo.

Lo que quiero saber es: ¿Cómo puedo determinar el efecto que tiene cada marcador en la predicción de Y dentro de cada variable latente? Preferiblemente en unidades de Y (libras por acre).

Debo añadir que sé que hay modelos más apropiados para modelar los efectos de los marcadores individuales, pero me interesa principalmente comparar este modelo con otros, así como conocer algunos efectos de los marcadores predichos con fines explicativos.

1voto

cbeleites Puntos 12461

Se pueden observar los coeficientes del PLS (la β de $\hat Y = β (X - \bar X)$ , no las cargas), pero tenga en cuenta el significado del centro $\bar X$ del modelo: los modelos PLS influyen en las desviaciones de este centro.

Si usted tomó los promedios de las columnas de su matriz de datos: ¿acaso esto $\bar X$ ¿tiene algún significado? Si no es así, es posible que quiera construir otro modelo PLS en el que $\bar X$ tiene un significado interpretable

  • Por ejemplo, el patrón de media X para el tipo salvaje
  • todo cero (es decir, PLS sin centrar X)

A continuación, puede comprobar si esta ganancia de interpretabilidad cuesta demasiado rendimiento.

Una alternativa es sondear los marcadores por separado. En primer lugar, predecir el resultado para la entrada de todos los ceros. A continuación, haga que cada marcador sea el único conjunto 1 y observe cuánto cambia el rendimiento predicho.

Nota al margen: si la entrada fuera continua, también habría que tener en cuenta la dispersión de las entradas de cada columna.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X