20 votos

¿Cómo se define matemáticamente la causalidad?

¿Cuál es la definición matemática de una relación causal entre dos variables aleatorias?

Dada una muestra de la distribución conjunta de dos variables aleatorias $X$ y $Y$, ¿cuándo diríamos que $X$ causa $Y$?

Para mayor contexto, estoy leyendo este artículo sobre descubrimiento causal.

2 votos

Según lo que puedo ver, la causalidad es un concepto científico y no matemático. ¿Puedes editar para clarificar?

3 votos

@mdewey No estoy de acuerdo. La causalidad puede ser analizada en términos completamente formales. Mira por ejemplo mi respuesta.

11voto

Ran Kerry Puntos 1

¿Cuál es la definición matemática de una relación causal entre dos variables aleatorias?

Matemáticamente, un modelo causal consiste en relaciones funcionales entre variables. Por ejemplo, considera el sistema de ecuaciones estructurales a continuación:

$$ x = f_x(\epsilon_{x})\\ y = f_y(x, \epsilon_{y}) $$

Esto significa que $x$ determina funcionalmente el valor de $y$ (si intervienes en $x$ esto cambia los valores de $y$) pero no al revés. Gráficamente, esto suele representarse como $x \rightarrow y$, lo que significa que $x$ entra en la ecuación estructural de y. Como complemento, también puedes expresar un modelo causal en términos de distribuciones conjuntas de variables contrafactuales, lo cual es matemáticamente equivalente a modelos funcionales.

Dada una muestra de la distribución conjunta de dos variables aleatorias X e Y, ¿cuándo podemos decir que X causa Y?

A veces (o la mayoría de las veces) no tienes conocimiento sobre la forma de las ecuaciones estructurales $f_{x}$, $f_y$, ni siquiera si $x\rightarrow y$ o $y \rightarrow x$. La única información que tienes es la distribución de probabilidad conjunta $p(y,x)$ (o muestras de esta distribución).

Esto lleva a tu pregunta: ¿cuándo puedo recuperar la dirección de causalidad solo a partir de los datos? O, más precisamente, ¿cuándo puedo recuperar si $x$ entra en la ecuación estructural de $y$ o viceversa, solo a partir de los datos?

Por supuesto, sin asunciones fundamentalmente incalificables sobre el modelo causal, esto es imposible. El problema es que varios modelos causales diferentes pueden resultar en la misma distribución de probabilidad conjunta de variables observadas. El ejemplo más común es un sistema causal lineal con ruido gaussiano.

Pero bajo algunas suposiciones causales, esto podría ser posible---y en eso trabaja la literatura de descubrimiento causal. Si no tienes exposición previa a este tema, podrías empezar por Elementos de Inferencia Causal de Peters, Janzing y Scholkopf, así como el capítulo 2 de Causalidad de Judea Pearl. Tenemos un tema aquí en CV sobre referencias de descubrimiento causal, pero aún no tenemos muchas referencias enumeradas allí.

Por lo tanto, no hay una sola respuesta a tu pregunta, ya que depende de las suposiciones que se hagan. El artículo que mencionas cita algunos ejemplos, como asumir un modelo lineal con ruido no gaussiano. Este caso se conoce como LINGAN (acrónimo de modelo acíclico lineal no gaussiano), aquí tienes un ejemplo en R:

library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1

# corre lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat") 

# Matriz de Adyacencia 'amat' (2 x 2) de tipo "pag":
#     [,1]  [,2]
# [1,] .     .   
# [2,]  TRUE .     

Observa aquí que tenemos un modelo causal lineal con ruido no gaussiano donde $x_2$ causa $x_1$ y lingam recupera correctamente la dirección causal. Sin embargo, ten en cuenta que esto depende críticamente de las suposiciones de LINGAM.

Para el caso del artículo que mencionas, hacen esta suposición específica (ver su "postulado"):

Si $x\rightarrow y$, la longitud mínima de la descripción del mecanismo que mapea X a Y es independiente del valor de X, mientras que la longitud mínima de la descripción del mecanismo que mapea Y a X depende del valor de Y.

Nota que esta es una suposición. Esto es lo que llamaríamos su "condición de identificación". Esencialmente, el postulado impone restricciones sobre la distribución conjunta $p(x,y)$. Es decir, el postulado dice que si $x \rightarrow y$ ciertas restricciones se cumplen en los datos, y si $y \rightarrow x$ otras restricciones se cumplen. Este tipo de restricciones que tienen implicaciones comprobables (imponen restricciones sobre $p(y,x)$) es lo que permite recuperar la dirección a partir de datos observacionales.

Como comentario final, los resultados de descubrimiento causal siguen siendo muy limitados y dependen de fuertes suposiciones, ten cuidado al aplicarlos en un contexto del mundo real.

1 votos

¿Hay alguna posibilidad de que puedas ampliar tu respuesta de alguna manera para incluir algunos ejemplos simples con datos ficticios por favor? Por ejemplo, después de haber leído un poco de Elementos de Inferencia Causal y haber visto algunas de las conferencias de Peters, y un marco de regresión se usa comúnmente para motivar la necesidad de entender el problema en detalle (ni siquiera estoy tocando su trabajo de ICP). Tengo la impresión (quizás equivocada) de que en tu esfuerzo por alejarte del RCM, tus respuestas dejan fuera toda la maquinaria de modelado tangible real.

1 votos

@usr11852 No estoy seguro de entender el contexto de tus preguntas, ¿quieres ejemplos de descubrimiento causal? Hay varios ejemplos en el mismo artículo que Jane ha proporcionado. Además, no estoy seguro de entender lo que quieres decir con "evitar RCM y dejar de lado la maquinaria de modelado tangible real", ¿qué maquinaria tangible estamos dejando fuera en este contexto de descubrimiento causal?

1 votos

Mis disculpas por la confusión, no me importan los ejemplos de papers. Puedo citar otros papers por mi cuenta. (Por ejemplo, Lopez-Paz et al. CVPR 2017 sobre su coeficiente de causalidad neuronal) Lo que me importa es un simple ejemplo numérico con datos falsos que alguien ejecute en R (o tu lenguaje favorito) y ver lo que quieres decir. Si mencionas, por ejemplo, el libro de Peters et al. y tienen pequeños fragmentos de código que son de gran ayuda (y ocasionalmente solo usan lm). ¡No todos podemos trabajar con las muestras observacionales de los conjuntos de datos de Tuebingen para tener una idea del descubrimiento causal! :)

6voto

avid Puntos 161

Existen una variedad de enfoques para formalizar la causalidad (lo cual está en consonancia con el gran desacuerdo filosófico sobre la causalidad que ha existido durante siglos). Uno de los más populares es en términos de resultados potenciales. El enfoque de resultados potenciales, llamado el modelo causal de Rubin, supone que para cada estado causal de los asuntos, hay una variable aleatoria diferente. Así, $Y_1$ podría ser la variable aleatoria de resultados posibles de un ensayo clínico si un sujeto toma el medicamento en estudio, y $Y_2$ podría ser la variable aleatoria si toma el placebo. El efecto causal es la diferencia entre $Y_1$ y $Y_2$. Si de hecho $Y_1 = Y_2$, podríamos decir que el tratamiento no tiene efecto. De lo contrario, podríamos decir que la condición de tratamiento causa el resultado.

Las relaciones causales entre variables también pueden representarse con gráficos direccionales acíclicos, los cuales tienen un sabor muy diferente pero resultan ser matemáticamente equivalentes al modelo de Rubin (Wasserman, 2004, sección 17.8).

Wasserman, L. (2004). All of statistics: A concise course in statistical inference. Nueva York, NY: Springer. ISBN 978-0-387-40272-7.

0 votos

Gracias. ¿Cuál sería una prueba para ello dada un conjunto de muestras de la distribución conjunta?

0 votos

@Jane La inferencia causal aplicada es un campo de estudio en sí mismo y no es algo sobre lo que podría decirte mucho en un comentario, incluso si supiera más allá de "hacer un experimento aleatorio para empezar".

3 votos

Estoy leyendo arxiv.org/abs/1804.04622. No he leído sus referencias. Estoy tratando de entender qué se entiende por causalidad basada en datos observacionales.

0voto

Terry Lorber Puntos 1897

Hay dos formas de determinar si $X$ es la causa de $Y$. La primera es estándar mientras que la segunda es mi propia afirmación.

  1. Existe una intervención en $X$ tal que se cambia el valor de $Y$

Una intervención es un cambio quirúrgico en una variable que no afecta a las variables en las que depende. Las intervenciones han sido formalizadas rigurosamente en ecuaciones estructurales y en modelos causales gráficos, pero hasta donde yo sé, no hay una definición que sea independiente de una clase de modelo en particular.

  1. La simulación de $Y$ requiere la simulación de $X$

Para hacer esto riguroso, se requiere formalizar un modelo sobre $X$ y $Y$, y en particular las semánticas que definen cómo se simula.

En enfoques modernos de la causalidad, la intervención se toma como el objeto primitivo que define las relaciones causales (definición 1). En mi opinión, sin embargo, la intervención es un reflejo de, y necesariamente consistente con, la dinámica de simulación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X