19 votos

¿Es apropiado utilizar "tiempo" como variable causal en un DAG?

Esta pregunta sería más adecuada para filosofía.SE pero lo publicaré aquí en primer lugar, ya que implica aspectos técnicos que entienden mejor los usuarios de este sitio. La pregunta del título plantea si es apropiado utilizar el "tiempo" como variable causal en un DAG. Más concretamente, si tenemos datos sobre diferentes periodos de tiempo, ¿es apropiado utilizar el índice de tiempo como una variable en el DAG, con flechas causales que emanan de esa variable a otras variables?

En mi opinión, esto plantea la cuestión filosófica de si se puede considerar que el "tiempo" tiene un impacto causal en otras variables o, por el contrario, si el tiempo es un componente inherente a la noción de causalidad (y, por tanto, no se puede incluir como variable causal). Más allá de esta cuestión filosófica, también plantea cuestiones estadísticas prácticas sobre el tratamiento adecuado de un índice temporal en un DAG. En la mayoría de las aplicaciones estadísticas que implican datos medidos a lo largo de distintos periodos, existen factores de confusión que también varían con el tiempo. En tales casos, ¿se puede utilizar el "tiempo" como sustituto de otra especificación de factores de confusión?

19voto

Aaron Puntos 36

Como respuesta parcial a esta pregunta, voy a exponer un argumento según el cual el propio tiempo no puede ser una variable causal propia, pero es legítimo utilizar una variable "tiempo" que represente un estado de la naturaleza concreto que se produce o existe durante un periodo de tiempo determinado (que en realidad es una variable de estado). Estas cuestiones impulsan la pregunta en sí, ya que mi intuición me dice que el "tiempo" en un modelo causal debe ser una especie de sustituto de algún tipo de variable de estado.


El tiempo mismo no puede sea una variable causal

El tiempo ya es un componente del concepto de causalidad: El primer obstáculo es el hecho de que el concepto de causalidad implica acciones y las acciones se producen a lo largo del tiempo. Así pues, el "tiempo" ya forma parte del concepto de causalidad. Por lo tanto, se podría considerar un concepto en el que el tiempo es a priori inadmisible como variable de argumento en el concepto. Afirmar que el tiempo es causa de un efecto requiere que el tiempo sea admitido tanto como variable causal afirmada, como también como concepto necesario para la causalidad misma. (Más adelante veremos más efectos de esto).

Si el tiempo causa algo, lo causa todo : El segundo obstáculo es que, en general, se considera que la causalidad exige una condición contrafáctica que se reduce a la trivialidad en el caso de que se afirme que el tiempo es la variable causal. Si decimos que "la precondición X causa la acción Y", la condición contrafáctica relevante es que (1) la presencia/ocurrencia de la precondición X significa que la acción Y ocurrirá; y (2) en ausencia de otra causa, la ausencia de la precondición X significa que la acción Y no ocurrirá. Pero como "ocurrirá" significa "ocurrirá en el tiempo", el uso de un "tiempo" como variable causal no añade nada al primer requisito, y convierte el segundo en una tautología. Si la precondición X es "el movimiento del tiempo" entonces (1) se reduce a "el movimiento del tiempo significa que la acción Y ocurrirá", que lógicamente se reduce a "la acción Y ocurrirá"; y (2) se reduce a "la ausencia de movimiento del tiempo significa que la acción Y no ocurrirá" (que es una tautología, ya que la acción puede sólo a lo largo del tiempo). Según esta interpretación contrafáctica de la causalidad, una afirmación de la causalidad temporal de una acción es lógicamente equivalente a una afirmación de que esta acción ocurrirá . Por lo tanto, debemos concluir que esta condición es demasiado débil para constituir causalidad (es decir, el tiempo no es causa de nada) o que el tiempo es la causa de todo .

La pura causalidad temporal es metafísicamente equivalente a la aleatoriedad: Otro obstáculo se presenta cuando el "tiempo" es la única variable causal (es decir, en el caso de la causalidad temporal pura). El problema es que, si se produce algún cambio en una variable a lo largo del tiempo, en ausencia de causalidad de un no horario variable, ésta se ha considerado tradicionalmente como la propia definición de aleatoriedad, es decir, de no causalidad. Así, afirmar que el tiempo es la única causa de un efecto es desterrar por completo de la metafísica la noción de no causalidad (aleatoriedad) y sustituirla por una "causa" base que siempre está presente si no hay otra causa. Alternativamente, se podría afirmar razonablemente que una afirmación de causalidad temporal es equivalente a una afirmación de aleatoriedad --- es decir, es una afirmación de que no hay causas para el cambio, aparte del paso del tiempo. En tal caso, la presencia del "tiempo" como variable causal en un DAG equivale a su ausencia (y, por tanto, la parsimonia aconseja excluirla). Además, la historia de este campo aconseja mantener la terminología actual de "aleatoriedad".

Problemas del cálculo causal con el tiempo como variable causal: Otro último obstáculo que mencionaré (puede haber más) es que resulta difícil tratar el "tiempo" como variable causal en la cálculo causal . En el cálculo causal estándar, tenemos un $\text{do}(\cdot)$ operador que opera sobre una variable causal para reflejar la intervención en el sistema para cambiar esa variable a un valor elegido que puede ser diferente de lo que sería bajo observación pasiva. No está del todo claro que sea posible imponer una "intervención" para una variable temporal sin entrar en conflicto con otros principios filosóficos o estadísticos. Ciertamente, se podría argumentar que esperando es una intervención que cambia el tiempo (sólo hacia adelante), pero aunque así se interpretara, no puede diferenciarse de la pasividad, por lo que podría decirse que no sería distinta de la observación pasiva. Se podría argumentar, en cambio, que podríamos registrar una gran cantidad de datos a lo largo de distintos tiempos, y entonces la "intervención" consistiría en elegir qué valores temporales se incluyen en los datos para el análisis. Se trataría, en efecto, de una elección de periodos de tiempo (sobre los datos disponibles), por lo que parecería constituir una intervención, pero eso es una epistémico intervención, no una metafísica uno. (También da lugar al problema secundario de no utilizar todos los datos disponibles).


Una variable de estado que se acumula con el tiempo puede sea una variable causal

Los DAG pueden incluir variables que representen estados de la naturaleza que se producen a lo largo de un tiempo determinado: Hay una serie de variables causales legítimas que representan la ocurrencia de algún estado o algún acontecimiento durante un periodo de tiempo prescrito. Un ejemplo sencillo (me quito el sombrero ante Carlos en la respuesta siguiente) es la inversión de dinero a lo largo del tiempo, que produce intereses. En este caso, el devengo de intereses se debe al hecho de que el dinero se invierte durante un período de tiempo, y cuanto más largo sea el período de inversión, mayor será el interés devengado. En este caso, es legítimo tener una variable "tiempo", que representa el periodo de tiempo elegido para la inversión, y esta variable tendría un impacto causal directo en los intereses devengados. Del mismo modo, la variable "edad" de una persona es una especie de variable "tiempo" (me quito el sombrero ante AdamO en la respuesta siguiente), que representa el hecho de que la persona ha estado viva durante un periodo de tiempo determinado. Cada una de estas variables son variables causales legítimas que pueden incluirse en un DAG. Estas variables no representan la progresión del tiempo en sí, sino que representan el hecho de que un determinado estado de naturaleza ha estado presente durante un periodo de tiempo concreto. En muchos casos, resulta útil etiquetar una variable de este tipo como "tiempo", pero es importante tener en cuenta que representa un estado de naturaleza específico. estado a lo largo de un periodo de tiempo, en lugar de la progresión del tiempo en sí.

En cierto sentido, cada variable es de este tipo: Dado que todos los posibles acontecimientos o estados de la naturaleza se producen en un momento determinado o a lo largo de un periodo de tiempo, cada variable implica una especificación temporal (a menudo implícita). No obstante, hay variables como "edad" o "tiempo invertido" que tienen una conexión más directa con el tiempo, en la medida en que la variable representa la cantidad de tiempo acumulado durante el cual se obtuvo un estado concreto.

Utilizar "tiempo" en un DAG es una forma abreviada de referirse a una variable de estado que se acumula con el tiempo: Si el argumento anterior es correcto, parecería que cualquier uso de una variable "tiempo" en un DAG debe ser una abreviatura de una variable que representa la ocurrencia de un acontecimiento concreto o la existencia de un estado de naturaleza concreto durante un periodo de tiempo especificado. La progresión del tiempo en sí no está sujeta a control o intervención, y no puede ser una variable causal por las razones descritas anteriormente. Sin embargo, la prevalencia de un determinado estado de naturaleza a lo largo de un periodo de tiempo ciertamente puede sea una variable causal legítima que pueda incluirse en un DAG.


Estos puntos dan una idea básica de por qué el uso del "tiempo" como variable causal es problemático, y de lo que significa añadir "tiempo" a un DAG. Como se puede ver, mi opinión es que el tiempo en sí mismo no puede ser una variable causal, sino que se puede tener una variable "tiempo" que represente realmente un acontecimiento o un estado de la naturaleza que ocurra o exista durante un periodo de tiempo. Estoy abierto a que me convenzan de lo contrario, pero esta me parece una resolución sensata de la cuestión.

10voto

user11867 Puntos 21

No veo ningún problema en ello. Un ejemplo sencillo de física: supongamos que nos interesa modelizar el DAG de la temperatura de un vaso de agua. Podría ser algo así

enter image description here

Tiempo hace hacen que cambie la temperatura. Hay mediadores en medio, pero eso no importa desde este punto de vista de 10.000 pies. A partir de este DAG, es lógico incluir el tiempo como variable en un modelo de regresión, como era de esperar.

Cuando estaba dibujando esto, pensaba "¿hay algún confusor interesante del tiempo y la temp que pueda incluir?". - pero no, porque nada, AFAIK, causa tiempo.

En cuanto a la cuestión de la interpretación, es más peliaguda y puede que se reduzca a si sigues la actitud de Hernan de "no hay causalidad sin manipulación" frente a la de Pearl de "todo vale". Véanse algunos de sus trabajos recientes sobre el tema, entre ellos ¿La obesidad acorta la vida? y ¿La obesidad acorta la vida? ¿O son los refrescos? Sobre causas no manipulables .

7voto

Ran Kerry Puntos 1

Que el "tiempo" sea una variable apropiada en un modelo depende del fenómeno que se esté modelando. Así pues, tal y como la ha planteado, su pregunta se refiere a una especificación errónea del modelo, no a una cuestión fundamental sobre el modelado causal per se. En algunos modelos, "tiempo" (o "año" o "duración en segundos") será una variable "apropiada", en otros puede que no.

Para ilustrar concretamente mi punto de vista, y puesto que usted cree que el tiempo no puede ser una variable causal, le daré un contraejemplo sencillo en el que el tiempo (la duración) es una variable causal apropiada: un modelo de ganancias en una cuenta de ahorros en función del tiempo que usted deja invertido su dinero.

Sea $Y$ ser sus ganancias, $I$ la inversión inicial, y $T$ sea el "tiempo", o más exactamente, el tiempo que dejas tu dinero invertido en la cuenta de ahorro (digamos, medido en meses). Entonces, $Y = f(I, T)$ es una ecuación estructural adecuada para $Y$ y cuánto tiempo dejas tu dinero en el banco. causa cuánto dinero ganarás. La acción $do(T = 6)$ también tiene un significado claro en este modelo (es decir, dejar el dinero invertido durante 6 meses, independientemente de otros factores). En resumen, con este modelo podemos responder a preguntas de intervención y contrafactuales sobre el efecto del tiempo en los ingresos (lo que se espera de un modelo causal), y el modelo tiene una interpretación clara (y sencilla) en el mundo real.

Usted puede argumentar que $T$ en el modelo anterior no es "realmente" lo que usted entiende por "tiempo". Pero entonces hay que definir qué es "realmente" el tiempo, como variable en el contexto de un modelo causal concreto. Sin definir qué representa el "tiempo", qué fenómeno se está modelando y para qué se va a utilizar el modelo (¿predicciones de intervenciones?) no podemos juzgar si el "tiempo" es una variable apropiada, o si se está modelando adecuadamente.

Un apéndice: sobre las variables como causas

En esencia, la causalidad consiste en modificar (algunos) mecanismos, manteniendo intactos otros. Por tanto, si quisiéramos ser exactos, tendríamos que describir todos los mecanismos que una acción modifica y los que no. Esto es demasiado exigente para la mayoría de los fines prácticos, tanto describir la acción por completo, como todas las ramificaciones de las acciones. Los modelos causales eliminan esta complejidad modelando la causalidad en términos de sucesos o variables.

Entonces, ¿qué significa decir que la variable $X$ "variable "causas $Y$ ? Esto es un atajo para, en lugar de caracterizar una acción por todo lo que cambia, caracterizarla por su efecto inmediato. Por ejemplo, $P(Y|do(X =x))$ es un atajo para afirmar que "la perturbación necesaria para que se produzca el acontecimiento $X=x$ altera la distribución de $Y$ a $P^*(Y)$ "y definimos esta nueva distribución $P^*(Y):= P(Y|do(X =x))$ . Así, cuando decimos que el "tiempo" causa algo, se trata de una abstracción de una descripción más complicada del proceso. En el caso de la duración de la inversión, por ejemplo, $do(T = t)$ en realidad significa "mantener un proceso específico durante t unidades de tiempo".

2voto

alexs77 Puntos 36

El tiempo casi necesariamente es un factor en cualquier análisis causal. De hecho, yo diría que la mayoría de los DAG lo incluyen sin que el estadístico piense explícitamente en ello. Lo más frecuente es edad . La edad es el tiempo transcurrido desde el nacimiento. Todos estamos de acuerdo en que es la causa de la mortalidad. También modelamos irreflexivamente interacciones entre la edad y otros factores como una forma de ajuste: años-paquete acumulados de tabaquismo, longitud de los telómeros, nivel educativo, ingresos familiares, estado civil, hipertrofia ventricular izquierda, etc. .

Sí, la edad es una forma de tiempo. También se puede tener el año natural, especialmente cuando hay interrupciones en una serie temporal, se pueden encontrar formas masivas de confusión temporal porque una determinada intervención o política se puso a disposición que interrumpe masivamente un análisis planificado, especialmente cuando el tratamiento se asigna de forma escalonada, cruzada o de otra manera no paralela.

Incluso en los ensayos clínicos, el tiempo de estudio se refleja en una serie de medidas importantes. Algunos fármacos pueden producir efectos tóxicos en su primera administración, otros superan acumulativamente la capacidad de metabolización del hígado o el riñón y acaban provocando un fallo orgánico. El efecto Hawthorne puede tener un impacto decreciente en los resultados medidos de seguridad y eficacia, como consecuencia del aprendizaje o la habituación al entorno del estudio. Esto se ilustra también con los problemas de modelización de los efectos por protocolo y por intención de tratar, en los que los no cumplidores y los que no responden se eliminan del conjunto de análisis, se podría decir que condicionando sus resultados, se puede estimar un efecto "prístino" del tratamiento en un entorno ideal en el que los pacientes cumplen y responden adecuadamente al tratamiento.

Estos son sólo los efectos de edad, periodo y cohorte: las tres formas de tiempo que el estadístico debe tener en cuenta en los análisis. Como se aprende en la modelización de series temporales, cuando se da una falta de estacionariedad, no podemos suponer que las medidas tomadas repetidamente a lo largo del tiempo sean las mismas que muchas medidas tomadas a la vez. El estadístico debe identificar e interpretar una estimación causal y tener en cuenta el tiempo de la forma causal adecuada.

1voto

Bryan Puntos 51

La dilatación gravitatoria del tiempo significa que el tiempo transcurre más despacio en las proximidades de una gran masa. Si el tiempo puede ser así dependiente, entonces parece probable que el tiempo también pueda ser una causa, ya que parece arbitrario permitir al tiempo un papel pero no el otro.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X