2 votos

Interacción entre la variable dependiente y la independiente

Estoy realizando una regresión lineal múltiple sobre los datos de un estudio transversal, y sospecho que existe una interacción entre mi variable dependiente (un marcador de riesgo de enfermedad) y una variable independiente (una exposición). Desde el punto de vista biológico, esto tendría sentido: el compuesto que me interesa (un tipo de retardante de llama) puede afectar a las concentraciones de colesterol en sangre, y el efecto parece ser mayor en quienes ya tienen elevados los lípidos plasmáticos.

Mis análisis iniciales utilizaron un enfoque (y: punto final - aquí colesterol, $x_1$ (exposición - retardante de la llama):

$$ y = a + \beta_1 x_1 + ... $$

Pero ahora sé que hay alguna relación $ \beta_1 \sim y $ y al estratificar por cuantiles de $y$ , $\beta_1$ cambia de aproximadamente -1 a +1 (no hay diferencias en la distribución de $x_1$ entre cuantiles). Así que en realidad el modelo debería incluir una interacción entre $x_1$ y $y$ :

$$ y = a + \beta_1 x_1 y + ... $$

¿Cuál es la forma más adecuada de abordarlo?

4 votos

Aconsejaría encarecidamente no hacer un modelo con $x_1,y$ interacción. Sería muy difícil de interpretar. ¿Qué aspecto tiene cuando se traza $x_1$ y $y$ ¿contra los demás? ¿La relación es inexistente o no es lineal?

0 votos

La relación es lineal, pero $beta$ cambia cuando estratifico por $y$ -cuantiles.

3 votos

En un modelo $y=a+\beta x_1$ sería imposible que la relación fuera lineal y que $\beta$ cambios con $y$ -cuantil. Así que el extraño patrón debe ser causado por las variables en " $\dots$ ". Tal vez la solución sea buscar interacciones entre las variables en " $\dots$ " y $x_1$ .

2voto

kjetil b halvorsen Puntos 7012

Lo que he entendido hasta ahora: Tienes una respuesta $Y$ (punto final, marcador de riesgo de enfermedad), una variable de exposición $x$ (retardante de llama), nivel de colesterol en sangre $B$ y algunas otras covariables. Primera pregunta: ¿es $B$ medido, ¿tal vez varias veces? Como usted lo explica, $B$ sería un mediador y según el criterio de la puerta trasera del análisis causal debería estar condicionado. Así pues, si $B$ no se mide, tienes un problema de sesgo de variable omitida, y no estoy seguro de qué hacer, aparte de volver al laboratorio y medirlo...

(Si mi comprensión de su situación reflejada en esta respuesta es errónea, por favor, coméntelo).

1 votos

Gracias - Lo siento, pero en este caso B es Y, es decir, el punto final es el colesterol en sangre. Así que el colesterol en sangre sería un mediador y un punto final al mismo tiempo.

1 votos

@Gux: Puedes editar tu pregunta original para incluir esta nueva información, así el problema estará más claro y quizás más gente pueda opinar.

0 votos

Hecho (espero que esté más claro ahora)

1voto

michael Puntos 12

A mi entender, esto no es pasable, al menos no de la manera en que el modelo está planteado en este momento.

Tener una variable en ambos lados, como dependiente y como parte de las variables independientes, se contradice con el propio pensamiento de la causalidad porque para la causalidad es importante el retardo de tiempo - debe haber alguna causa al principio, seguida por el efecto. La causa y el efecto no pueden ocurrir al mismo tiempo. Utilizar la misma variable en ambos lados contradiría esta idea de causalidad.

Sin embargo, su explicación de que "el efecto parece ser más fuerte en aquellos con lípidos plasmáticos ya elevados" suena razonable. Pero para mí esto significa que si el colesterol sanguíneo estaba evelado en $t1$ El retardante de llama tiene un efecto diferente sobre el colesterol en sangre a $t2$ como si el colesterol en sangre estuviera menos evelado en $t1$ . Así que para mí su hipótesis sólo tiene sentido si utiliza una versión retardada de su variable dependiente que interactúa con la variable independiente retardante de llama, no con la variable dependiente original.

Así que el modelo sería

$y(t) = a + b* x * y(t - l) +...$

Dónde $l$ es el retraso que tienes que elegir.

Nota: según entiendo tu pregunta el colesterol en sangre es y y parte de la interacción y el ignífugo es x. Por favor, comenta si lo he entendido mal.

0 votos

Tienes razón, el problema es que no hay ninguna variable con desfase temporal. Es probable que el colesterol actúe como un marcador sustituto de algo más que desconocemos, pero desgraciadamente por el momento el colesterol es todo lo que tenemos.

1 votos

@Gux: Entonces lo que quieres decir es que no tienes datos desfasados en el tiempo del colesterol? Eso haría imposible aplicar el análisis que sugiero, claro

1voto

Matt P Puntos 386

Parece que el modelo que te imaginas lo es:

$y_{2} = y_{1} + \beta_{1} x_{1} y_{1} + \epsilon$

donde $y_{2}$ es el $y$ observas y $y_{1}$ es la contrafactualidad no observada $y$ si $x_1$ eran 0, determinados por otras variables no observadas.

Puede intentar estimar esto como un modelo de variable latente. En particular, puede ajustar el modelo utilizando el enfoque de Ecuación Estructural Moderada Latente de Klein y Moosbrugger 2000 . El paquete R nlsem implementa esto. Estimará los parámetros, pero no estoy seguro de si hará pruebas de significación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X