25 votos

¿Puede un factor de confusión ocultar una posible relación causal? (en lugar de encontrar una espuria)

Soy un novato con las estadísticas y me cuesta entender esto:

  • es bien sabido que un factor de confusión puede causar una asociación espuria, lo que lleva a rechazar una hipótesis nula verdadera (es decir, debido al factor de confusión Z, podría concluir que existe una relación causal entre X e Y, mientras que no la hay)
  • la pregunta es: ¿puede ser también cierto lo contrario? Es decir, ¿puede un factor de confusión hacer que no se rechace una hipótesis nula falsa? En caso afirmativo, ¿cuál sería un ejemplo convincente?

1 votos

Un concepto relacionado se llama "supresión". Véase Kim (2019) para un debate sobre la supresión en términos causales.

38voto

James Puntos 21

Reformulando lo contrario a un factor de confusión: Es definitivamente posible que una variable no observada dé la impresión de que no hay relación, cuando hay es uno.


Confusión suele referirse a una situación en la que una variable no observada produce la ilusión de que existe una relación entre dos variables cuando no la hay:

confounding

Este es un caso especial de sesgo de las variables omitidas que, de forma más general, se refiere a cualquier situación en la que una variable no observada sesga la relación observada:

OVB

Es fácil imaginar un escenario en el que esto tenga un efecto anulador en la estimación:

rhozero

(Yo escribí $\rho=0$ para la ilustración, pero la relación no observada no tiene por qué ser lineal).

A este fenómeno se le puede llamar sesgo de variable omitida, cancelación o enmascaramiento. La confusión suele referirse al tipo de relación causal que se muestra en la primera figura.

0 votos

Gracias Frans. En la segunda y tercera figuras, ¿debo suponer que existe una asociación (positiva) entre O y X? (Parece que esto está implícito en la referencia de Wikipedia sobre OVB).

1 votos

@Franco ¡Sí, tienes razón! Lo he incluido en las cifras

1 votos

Seguramente la segunda situación es a priori mucho menos probable, porque O tiene que ejercer un efecto específico (igual pero opuesto) a la verdadera relación causal para cancelar

27voto

Tmanok Puntos 11

Siguiendo con las respuestas existentes, quería dar un ejemplo concreto. Imagina que intentas averiguar si el pedal del acelerador afecta a la velocidad de un coche. Observas hasta dónde se pisa el acelerador y a qué velocidad va el coche en varios momentos y no ves ninguna correlación, por lo que concluimos que no hay un efecto causal entre ellos. Sin embargo, lo que no tenemos en cuenta es el hecho de que el coche sube y baja colinas y que a menudo hay que pisar el acelerador cuando el coche sube lentamente una colina. Si conociéramos la pendiente de la carretera, podríamos controlar ese dato y encontrar la verdadera relación causal.

Este es un ejemplo del último diagrama de la respuesta de Frans.

Este ejemplo es aún más claro si se intenta asociar el acelerador a la aceleración, en lugar de a la velocidad. La aceleración total del coche será (gas pedal) - (hill slope) . Suponiendo que tengas el control de crucero activado, éste intentará mantener la aceleración en torno a cero. Así que el gas se ajustará para anular la pendiente de la colina y estará totalmente desvinculado de la aceleración (que estará dominada por los cambios de pendiente que el control de crucero aún tiene que compensar).

1 votos

¡Fantástico ejemplo!

6voto

David Puntos 41

En primer lugar, creo que estás mezclando el uso de "correlación" y "relación causal". Son cosas diferentes. Para discutir las diferencias, y cómo encontrar la "relación causal", necesitamos muchos esfuerzos.

Aquí sólo responderé si una variable de confusión puede ocultar la correlación.


Sí, aquí hay un ejemplo intuitivo (los datos son generados por y = c(runif(100), runif(100)+2) , x = seq_along(y) en R):

Tenemos x, y y la variable de grupo. La información del grupo se representa como un color de los puntos.

  • Si no conocemos el grupo / construir un modelo de regresión utilizando todos los datos, podemos decir, x e y están correlacionados positivamente.
  • Si utilizamos la información del grupo / construimos un modelo de regresión sobre cada grupo. diremos que x e y no tienen casi ninguna correlación.

enter image description here

3 votos

Gracias Haitao. Seguramente por mi inexperiencia, tengo dificultades para entender correctamente la respuesta: me parece que si omito la variable de grupo (digamos, z) veo una correlación entre x e y, mientras que cuando la introduzco, dicha correlación desaparece. ¿No es entonces z un factor de confusión en el sentido habitual? (es decir, que crea una asociación espuria, cuando se omite)

0 votos

+1 por un bonito gráfico, pero el ejemplo podría ser mucho más claro. Aquí, el código es el verdadero modelo causal: si se interviene sobre él, se sabe exactamente cómo va a responder. Si la variable en el eje X y la variable de grupo estuvieran explícitamente presentes en el código, entonces sería más fácil entender lo que quieres decir.

0 votos

Al igual que hay múltiples modelos causales compatibles con un conjunto de datos determinado, hay múltiples formas de escribir el código. Tal vez si se incluyen ambas se obtendría una respuesta aún mejor.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X