18 votos

¿Por qué la correlación sólo se define entre dos variables?

Soy estudiante de MBA y estoy haciendo cursos de estadística.

Nuestro profesor de estadística nos enseñaba las correlaciones en estadística. Aprendimos sobre la correlación de Pearson del coeficiente que se define como la correlación entre sólo dos variables.

He preguntado al profesor si se puede calcular la correlación entre más de dos variables y me ha dicho que no. Pero estoy luchando para entender por qué este es el caso?

Por ejemplo: Los huracanes están correlacionados con la velocidad del viento, los huracanes también están correlacionados con la temperatura - Aunque no soy meteorólogo no sé si esto es cierto (sólo lo he supuesto para mostrar un punto), podemos ver que en teoría más de dos variables pueden estar correlacionadas.

Por lo tanto, ¿por qué sólo evaluamos la correlación entre dos variables y no entre más de dos variables?

25voto

user164061 Puntos 281

La correlación de Pearson es definido como medida de la relación lineal entre dos variables.

Para otras relaciones, como las multidimensionales, utilizamos otros nombres. Por ejemplo:

Además, existen constructos similares a la correlación de Pearson que utilizan múltiples variables. He visto antes en este sitio web una expresión como $E[(X-\mu_X)(Y-\mu_Y)(Z-\mu_Z)]/(\sigma_X\sigma_Y\sigma_Z)$ . (pero no puedo encontrar el post original)

19voto

Aaron Puntos 36

En cierto sentido, la correlación es definida entre más de dos variables, mediante un matriz de correlaciones . Por supuesto, no se trata de un número único, pero es natural, ya que describe la correlación entre varios pares de variables. Esta situación es análoga a muchos tipos de medición en el análisis multivariante, en el que medimos aspectos del comportamiento mediante vectores o matrices. También le interesará saber que la matriz de correlaciones de un conjunto de variables basta para calcular el coeficiente de determinación de cualquier regresión lineal gaussiana en la que intervengan esas variables (véase esta respuesta relacionada ), por lo que incluso cuando ampliamos nuestro análisis para examinar las correlaciones condicionales, la matriz de correlaciones es suficiente para este fin.

Por supuesto, incluso con una matriz de correlaciones, ésta no hace más que describir la correlación por pares entre cada par de variables y las relaciones lineales resultantes condicionadas por otras variables. La razón por la que estos valores de correlación son para pares de variables es que están midiendo la tendencia de que una cosa varíe con respecto a una segunda cosa .

13voto

Dipstick Puntos 4869

Una estadística así sería difícil de definir e interpretar. Digamos que tenemos las variables $A$ , $B$ y $C$ . La correlación por pares entre $A$ y $B$ está cerca de $+1$ y la correlación por pares entre $B$ y $C$ está cerca de $-1$ . ¿Cuál debería ser la correlación numérica única entre las tres variables? ¿Alta, baja o tal vez cero?

En su lugar, puede consultar matrices de correlación entre todas las variables, pero es un enfoque muy sobrevalorado que puede inducir a error y llevar a una falsa sensación de comprensión. Un ejemplo es la gente que descarta ciegamente de su análisis variables que están fuertemente correlacionadas entre sí, o semanalmente correlacionadas con la variable dependiente, pasando por alto que esas relaciones pueden cambiar al controlar otras variables. Es como en el parábola de los ciegos y el elefante :

Un grupo de ciegos oyó que un extraño animal, llamado elefante, pero ninguno de ellos conocía su forma. y forma. Por curiosidad, dijeron: "Debemos inspeccionarlo y conocerlo tacto, de lo que somos capaces". Así que la buscaron y, cuando la encontraron la encontraron, tantearon a su alrededor. La primera persona, cuya mano se posó sobre el tronco, dijo: "Este ser es como una gruesa serpiente". Otro cuya mano alcanzó la oreja, le pareció una especie de abanico. En cuanto a otra persona, cuya mano estaba sobre su pata, dijo, el elefante es un pilar como un tronco de árbol. El ciego que puso la mano sobre su lado dijo que el elefante "es una pared". Otro que palpó su cola, lo describió como una cuerda. El último que palpó su colmillo, afirmó que el elefante es duro, liso y como una lanza.

Observar las relaciones entre pares sólo nos cuenta una parte de la historia, pero no es suficiente para hacernos una idea completa. Todos esperamos que nuestro cerebro sea capaz de combinar de algún modo toda la información para obtener la imagen completa, pero si así fuera y la gente pudiera simplemente echar un vistazo a los números para sacar conclusiones legítimas, no necesitaríamos estadísticas.

Para muchas variables, utilizamos en su lugar los modelos multivariantes como regresión lineal o correlaciones parciales que nos hablan de las relaciones entre pares, pero corregido por la influencia de otras variables.

13voto

Daniel Duque Puntos 1

¿por qué sólo se evalúa la correlación entre dos variables y no entre más de dos variables?

Pueden ser más de 2 variables. La función de correlación de tres puntos (3PC) se utiliza en cosmología, La función de correlación de tres puntos en cosmología . Se forma para variables $x$ , $y$ y $z$ con la siguiente aproximación con un factor constante de 1, $$3PC=Corr(x,y,z) = Corr(x,y) \cdot Corr(y,z) + Corr(y,z) \cdot Corr(z,x) + Corr(z,x) \cdot Corr(x,y)\cdot$$ Se está acabando el ciclo. Esto podría extenderse a la función de correlación de N puntos.

8voto

wigf1 Puntos 379

Las correlaciones entre múltiples variables pueden definirse como una cumulante conjunta . En física la llamamos "función de correlación conectada". En estadística, estas cantidades se llamarían covarianzas en lugar de correlaciones, ya que es habitual normalizar las correlaciones para que estén entre -1 y 1.

La correlación conectada entre $n$ variables es un efecto que se debe a todas $n$ variables juntas que no pueden atribuirse a correlaciones entre variables en subconjuntos propios de la $n$ variables. Las funciones de correlación conectadas son funciones multilineales de sus argumentos.

El valor de la expectativa de cualquier producto arbitrario de variables aleatorias se puede escribir como una suma de productos de correlaciones conectadas que implican todas las formas en que se puede dividir el conjunto de variables en subconjuntos disjuntos. Esta propiedad da lugar a una recursión para la función de correlación conjunta, por lo que puede utilizarse para definirla.

Si denotamos las correlaciones conectadas como $C(X_1,X_2,\ldots,X_n)$ entonces tenemos: $$C(X) = E(X)\tag{1}$$ lo que se deduce trivialmente de la recursión. Para dos variables $X$ y $Y$ tenemos que la correlación conexa $C(X,Y)$ es la covarianza entre $X$ y $Y$ . Esto también se deduce fácilmente de la recursión: $$ E(XY) = C(X,Y) + C(X) C(Y) $$ Utilizando (1) obtenemos entonces: $$ C(X,Y)=E(XY) - E(X) E(Y)\tag{2} $$

Para 3 variables $X$ , $Y$ y $Z$ la recursividad es: $$ E(XYZ) = C(X,Y,Z) + C(X,Y) C(Z) + C(X,Z) C(Y)+C(Y,Z) C(X) + C(X)C(Y)C(Z) $$

Sustituyendo la expresión (1) y (2) para las correlaciones conectadas de una y dos variables se obtiene entonces:

$$C(X,Y,Z)=E(XYZ) - E(XY) E(Z) - E(XZ)E(Y) - E(YZ)E(X) + 2E(X)E(Y)E(Z)$$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X