11 votos

¿Cómo se verifica la causalidad?

Una vez que hemos demostrado que dos cantidades están correlacionadas, ¿cómo inferimos que la relación es causal? Y además, ¿cuál es la causa de qué? Ahora bien, en teoría se puede utilizar una "asignación aleatoria" (sea cual sea la palabra correcta), para romper cualquier vínculo accidental que pueda existir entre dos variables. Pero en algunos casos esto no es posible hacerlo. Por ejemplo, consideremos la frecuencia con la que una persona fuma, medida en cigarrillos por semana, frente a la esperanza de vida, medida en años. Podemos elegir al azar dos grupos de personas. Hacer que un grupo fume y el otro no lo haga. Como la asignación es aleatoria, esto debería romper cualquier otra relación entre ellos. Pero, por supuesto, esto no es posible hacerlo por muchas razones diferentes. Entonces, ¿cuáles son algunas de las técnicas que se pueden utilizar?

1 votos

Mediante experimentos cuidadosamente planificados. ;-)

1 votos

@StatsStudent ¿Qué experimentos? Por ejemplo, cigarrillos vs esperanza de vida. Realmente quieres hacer ese experimento, bajo algún tipo de condición de control, si crees que bajan la esperanza de vida? Con los experimentos es fácil verificar la causalidad. Pero, ¿cómo se hace a partir de un gráfico de correlación?

0 votos

@NicolasBourbaki tu pregunta comienza asumiendo que las cantidades están correlacionadas. ¿Implica esto que también estamos asumiendo que las variables están relacionadas de forma lineal, como Y=A*X+B?

6voto

user35413 Puntos 11

Creo que esta es una muy buena pregunta. Me encuentro con este problema a menudo y reflexiono mucho sobre él. Investigo en el ámbito de la ciencia médica y la noción en medicina es que no se demuestra que nada sea causal, nunca, nunca, nunca, hasta que se realice un ensayo clínico controlado aleatorio, preferiblemente con un píldora (o cualquier otra exposición que pueda ser triplemente ciega), han demostrado un efecto sobre la respuesta de interés. Esto es bastante triste, ya que todos los demás estudios se consideran estudios de asociación, lo que tiende a reducir su impacto.

Hill y Richard Doll pensaron en esto. El primero formuló los criterios de causalidad de Hill:

Los criterios de Bradford Hill, también conocidos como criterios de causalidad, son un grupo de condiciones mínimas necesarias para proporcionar una relación causal entre una incidencia y una consecuencia. consecuencia, establecidos por el epidemiólogo inglés Sir Austin Bradford Hill (1897-1991) en 1965.


Fuerza : Una asociación pequeña no significa que no haya un efecto causal, aunque cuanto mayor sea la asociación, más probable es que sea causal. Consistencia : Los hallazgos consistentes observados por diferentes personas en diferentes lugares con diferentes muestras refuerzan la probabilidad de un efecto. Especificidad : La causalidad es probable si se trata de una población muy específica en un lugar y una enfermedad concretos sin otra explicación probable. Cuanto más más específica sea la asociación entre un factor y un efecto, mayor será la la probabilidad de una relación causal. Temporalidad : El efecto tiene que ocurrir después de la causa (y si hay un retraso esperado entre la causa y el efecto esperado, entonces el efecto debe ocurrir después de ese retraso). Gradiente biológico : Una mayor exposición debería conducir generalmente a una mayor incidencia del efecto. Sin embargo, en algunos casos, la mera presencia del factor puede desencadenar el efecto. En otros casos, se observa una En otros casos, se observa una proporción inversa: una mayor exposición conduce a una menor incidencia. Plausibilidad : Un mecanismo plausible entre causa y efecto es útil (pero Hill señaló que el conocimiento del mecanismo está limitado por conocimientos actuales). Coherencia : La coherencia entre los hallazgos epidemiológicos y de laboratorio aumenta la probabilidad de un efecto. Sin embargo, Hill señaló que "... la falta de tales pruebas [de laboratorio] no puede anular el efecto epidemiológico en las asociaciones". Experimento : "Ocasionalmente es posible apelar a la evidencia experimental". Analogía : Se puede considerar el efecto de factores similares.


Esto se formuló hace unos 50 años, antes de la llegada de los ensayos aleatorios (que podrían no ser de interés para su campo particular), pero cabe destacar que los experimentos no tuvieron un papel crucial en los criterios de Hill.

Me gustaría pensar que los datos observacionales, si se analizan con métodos estadísticos adecuados, permiten inferir la causalidad. (Por supuesto, esto depende de muchos factores.) Pero en mi campo, cuando se trata de cambiar el manejo de los pacientes, es raro ver directrices conformadas por otra cosa que no sean ensayos aleatorios, y el preludio de las directrices a menudo subraya que sólo se puede obtener cierta causalidad en ensayos aleatorios.

Ahora sé que muchos de ustedes no estarán de acuerdo conmigo. Yo tampoco estoy de acuerdo conmigo mismo. Pero podría aportar algo a la discusión.

0 votos

"(que podría no ser de interés para su campo particular)" Mi interés es la geometría algebraica y la aritmética. Que es lo más alejado de la estadística que se pueda imaginar. Sólo lo pregunto como curiosidad.

4voto

Richard Hardy Puntos 6099

La estadística proporciona herramientas para detectar y modelar regularidades en los datos. El proceso de modelización suele estar guiado por el conocimiento de la materia. Cuando el modelo representa el mecanismo de la materia, las propiedades estadísticas del modelo estimado indican si los datos son contrarios al mecanismo modelado. A continuación, se infiere la causalidad (o la falta de ella), y esto se hace sobre la dominio de la materia .

Un ejemplo: supongamos que tenemos una muestra aleatoria de dos variables $x$ y $y$ . La correlación entre ellos es grande y estadísticamente significativa.

Hasta ahora, ¿puede decir si $x$ causa $y$ ? No lo creo.

Ahora añade a los datos el conocimiento de la materia.
Caso A: las variables observadas son la longitud de los pies y la talla de calzado preferida
$\rightarrow$ a la gente le gusta comprar zapatos que se ajusten a su talla de pies, por lo que la talla de pies provoca la elección de la talla de zapatos (pero no al revés).
Caso B: las variables observadas son la altura y el peso de las personas
$\rightarrow$ Los adultos tienden a ser más altos y más pesados que los niños, pero ¿significa eso que el peso causa la altura o la altura causa el peso? La genética, la nutrición, la edad y otros factores causan ambas cosas.

1voto

satyajit roy Puntos 1

Actualmente, la pregunta supone que las cantidades están correlacionadas, lo que implica que la persona que determina la correlación debe tener buenas razones para creer que las variables comparten una relación lineal.

La causalidad de Granger podría ser la mejor herramienta para determinar las relaciones causales lineales. Granger fue un economista que compartió un premio nobel por su trabajo sobre la causalidad lineal.

Granger sugiere que para un conjunto de variables $\{X_t^{(i)}\}_{i=1}^k$ para ser considerada una causa de efecto $Y_t$ dos condiciones deben cumplirse:

  1. La causa debe ocurrir antes que el efecto.
  2. La causa debe contener información sobre el efecto que no está disponible de otra manera.

Para encontrar la información compartida se puede utilizar la regresión (aunque hay que tener en cuenta que los coeficientes de regresión significativos no implican información compartida en teoría, sólo en la práctica). En concreto, se quiere comparar los residuos con y sin las variables de causa. Considere que las variables son vectores columna, de modo que $\mathcal{X}=[X_{t-1}^{(1)},X_{t-2}^{(1)},\ldots,X_{t-m}^{(1)},X_{t-1}^{(2)},X_{t-2}^{(2)},\ldots,X_{t-m}^{(2)},\ldots,X_{t-m}^{(k)}]^T$ es también un vector columna, y $\mathcal{Y}=[Y_{t-1},Y_{t-2},\ldots,Y_{t-m}]^T$ es un vector de columnas. ( $m$ se llama el orden o el desfase. Existen métodos para elegir de forma óptima $m$ pero creo que la gente simplemente adivina lo mejor $m$ o basarse en otras limitaciones). Entonces las ecuaciones de regresión de interés son \begin{align*} Y_t=A\cdot\mathcal{Y}+\epsilon_t \\ Y_t=A'\cdot[\mathcal{Y},\mathcal{X}]^T+\epsilon'_t. \end{align*} Para determinar si el $X_{t-i}^{(j)}$ contiene información sobre $Y_t$ se haría una prueba F sobre las varianzas de $\epsilon_t$ y $\epsilon'_t$ .

Para asegurarse de que la información no es contabilizada por ninguna otra fuente, se reuniría cualquier otra variable que pueda ser contabilizada, por ejemplo $Z_t^{(1)},\ldots,Z_t^{(p)}$ , defina $\mathcal{Z}=[Z_{t-1}^{(1)},Z_{t-2}^{(1)},\ldots,Z_{t-m}^{(p)}]^T$ y hacer la regresión \begin{align*} Y_t=A\cdot[\mathcal{Y},\mathcal{Z}]^T+\epsilon_t \\ Y_t=A'\cdot[\mathcal{Y},\mathcal{X},\mathcal{Z}]^T+\epsilon'_t. \end{align*} y hacer la misma prueba F en los residuos.

Esto es sólo un esbozo y creo que muchos autores han mejorado esta idea.

0voto

theDoctor Puntos 168

No se puede al menos no dentro de las estadísticas.

Máxima: nunca se puede saber con certeza que el efecto de una variable es causado por otra. La razón: nunca se puede saber si no hay otra variable de la que no se es consciente y los datos que se han recogido no pueden posiblemente te lo diga.

La realidad es que la recogida de datos no siempre es suficiente cuando los datos son estáticos y el fenómeno es dinámico, como el comportamiento humano. En ese caso, la propia recogida de datos puede sesgar los resultados, al igual que en la física de partículas el hecho de la observación sí mismo no se puede eliminar de la ecuación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X