Actualmente, la pregunta supone que las cantidades están correlacionadas, lo que implica que la persona que determina la correlación debe tener buenas razones para creer que las variables comparten una relación lineal.
La causalidad de Granger podría ser la mejor herramienta para determinar las relaciones causales lineales. Granger fue un economista que compartió un premio nobel por su trabajo sobre la causalidad lineal.
Granger sugiere que para un conjunto de variables $\{X_t^{(i)}\}_{i=1}^k$ para ser considerada una causa de efecto $Y_t$ dos condiciones deben cumplirse:
- La causa debe ocurrir antes que el efecto.
- La causa debe contener información sobre el efecto que no está disponible de otra manera.
Para encontrar la información compartida se puede utilizar la regresión (aunque hay que tener en cuenta que los coeficientes de regresión significativos no implican información compartida en teoría, sólo en la práctica). En concreto, se quiere comparar los residuos con y sin las variables de causa. Considere que las variables son vectores columna, de modo que $\mathcal{X}=[X_{t-1}^{(1)},X_{t-2}^{(1)},\ldots,X_{t-m}^{(1)},X_{t-1}^{(2)},X_{t-2}^{(2)},\ldots,X_{t-m}^{(2)},\ldots,X_{t-m}^{(k)}]^T$ es también un vector columna, y $\mathcal{Y}=[Y_{t-1},Y_{t-2},\ldots,Y_{t-m}]^T$ es un vector de columnas. ( $m$ se llama el orden o el desfase. Existen métodos para elegir de forma óptima $m$ pero creo que la gente simplemente adivina lo mejor $m$ o basarse en otras limitaciones). Entonces las ecuaciones de regresión de interés son \begin{align*} Y_t=A\cdot\mathcal{Y}+\epsilon_t \\ Y_t=A'\cdot[\mathcal{Y},\mathcal{X}]^T+\epsilon'_t. \end{align*} Para determinar si el $X_{t-i}^{(j)}$ contiene información sobre $Y_t$ se haría una prueba F sobre las varianzas de $\epsilon_t$ y $\epsilon'_t$ .
Para asegurarse de que la información no es contabilizada por ninguna otra fuente, se reuniría cualquier otra variable que pueda ser contabilizada, por ejemplo $Z_t^{(1)},\ldots,Z_t^{(p)}$ , defina $\mathcal{Z}=[Z_{t-1}^{(1)},Z_{t-2}^{(1)},\ldots,Z_{t-m}^{(p)}]^T$ y hacer la regresión \begin{align*} Y_t=A\cdot[\mathcal{Y},\mathcal{Z}]^T+\epsilon_t \\ Y_t=A'\cdot[\mathcal{Y},\mathcal{X},\mathcal{Z}]^T+\epsilon'_t. \end{align*} y hacer la misma prueba F en los residuos.
Esto es sólo un esbozo y creo que muchos autores han mejorado esta idea.
1 votos
Mediante experimentos cuidadosamente planificados. ;-)
1 votos
@StatsStudent ¿Qué experimentos? Por ejemplo, cigarrillos vs esperanza de vida. Realmente quieres hacer ese experimento, bajo algún tipo de condición de control, si crees que bajan la esperanza de vida? Con los experimentos es fácil verificar la causalidad. Pero, ¿cómo se hace a partir de un gráfico de correlación?
0 votos
@NicolasBourbaki tu pregunta comienza asumiendo que las cantidades están correlacionadas. ¿Implica esto que también estamos asumiendo que las variables están relacionadas de forma lineal, como Y=A*X+B?
0 votos
@NicolasBourbaki Se podría definir $Y(t+1)=\cos(X(t))-1+ noise$ y muchos pensarían en $X$ como "causante" $Y$ . Por otro lado $X(t)$ y $Y(t+1)$ no están correlacionados.
0 votos
@NicolasBourbaki He proporcionado una respuesta asumiendo la linealidad a continuación y me gustaría proporcionar una respuesta más general, pero sería fuera de tema si sólo está interesado en las relaciones lineales.