¿Cuál es una medida de "correlación" significativa para estudiar la relación entre estos dos tipos de variables?
En R, ¿cómo hacerlo?
¡Muchas gracias!
¿Cuál es una medida de "correlación" significativa para estudiar la relación entre estos dos tipos de variables?
En R, ¿cómo hacerlo?
¡Muchas gracias!
Sólo un pequeño comentario sobre la contribución de Artur Avila a la teoría espectral: Una parte de ella (junto con Svetlana Jitomirskaya) fue demostrar que la mariposa de Hofstadter
realmente tiene la estructura de tipo Cantor que se ve. Este fue el famoso El problema de los diez martinis .
Descargo de responsabilidad : Lo anterior es una simplificación excesiva. Que el conjunto mostrado en la imagen es un conjunto de Cantor se debe a Last a mediados de los años noventa, pero el teorema de Avila--Jitomriskaya afirma que lo mismo es cierto para un gran conjunto de parámetros.
Segundo descargo de responsabilidad : Esta es sólo una pequeña (pero importante) parte de la contribución de Ávila a las matemáticas.
La imagen está tomada de http://en.wikipedia.org/wiki/Hofstadter%27s_butterfly
Gracias. Pero, ¿a qué nivel de IM corresponde el corr=1 y a qué nivel de IM corresponde el corr=0?
MI tiene un mínimo de 0, y MI = 0 si y sólo si las variables son independientes. Sin embargo, el IM no tiene un límite superior constante (el límite superior está relacionado con las entropías de las variables), por lo que es posible que desee buscar una de las versiones normalizadas si eso es importante para usted.
Si la variable categórica es ordinal y se divide la variable continua en algunos intervalos de frecuencia, se puede utilizar la Gamma. También están disponibles para datos emparejados puestos en forma ordinal la tau de Kendal, la tau de Stuart y la D de Somers. No sé cómo se calculan utilizando las rutinas de R. Aquí hay un enlace a una presentación que da información detallada: http://faculty.unlv.edu/cstream/ppts/QM722/measuresofassociation.ppt#260,5,Measures de asociación para variables nominales y ordinales
Una variable categórica es efectivamente un conjunto de variables indicadoras. Una idea básica de la teoría de la medición es que dicha variable es invariable al reetiquetado de las categorías, por lo que no tiene sentido utilizar el etiquetado numérico de las categorías en ninguna medida de la relación entre otra variable (por ejemplo, la "correlación"). Por esta razón, y la medida de la relación entre una variable continua y una variable categórica debe basarse enteramente en las variables indicadoras derivadas de esta última.
Dado que quieres una medida de "correlación" entre las dos variables, tiene sentido mirar la correlación entre una variable aleatoria continua $X$ y una variable aleatoria indicadora $I$ derivada de t una variable categórica. Dejando que $\phi \equiv \mathbb{P}(I=1)$ que tenemos:
$$\mathbb{Cov}(I,X) = \mathbb{E}(IX) - \mathbb{E}(I) \mathbb{E}(X) = \phi \left[ \mathbb{E}(X|I=1) - \mathbb{E}(X) \right] ,$$
que da:
$$\mathbb{Corr}(I,X) = \sqrt{\frac{\phi}{1-\phi}} \cdot \frac{\mathbb{E}(X|I=1) - \mathbb{E}(X)}{\mathbb{S}(X)} .$$
Así, la correlación entre una variable aleatoria continua $X$ y una variable aleatoria indicadora $I$ es una función bastante simple de la probabilidad del indicador $\phi$ y la ganancia normalizada del valor esperado de $X$ a partir del condicionamiento $I=1$ . Nótese que esta correlación no requiere ninguna discretización de la variable aleatoria continua.
Para una variable categórica general $C$ con rango $1, ..., m$ entonces solo tendrías que extender esta idea para tener un vector de valores de correlación para cada resultado de la variable categórica. Para cualquier resultado $C=k$ podemos definir el indicador correspondiente $I_k \equiv \mathbb{I}(C=k)$ y nosotros sí:
$$\mathbb{Corr}(I_k,X) = \sqrt{\frac{\phi_k}{1-\phi_k}} \cdot \frac{\mathbb{E}(X|C=k) - \mathbb{E}(X)}{\mathbb{S}(X)} .$$
Podemos entonces definir $\mathbb{Corr}(C,X) \equiv (\mathbb{Corr}(I_1,X), ..., \mathbb{Corr}(I_m,X))$ como el vector de valores de correlación para cada categoría de la variable aleatoria categórica. Este es realmente el único sentido en el que tiene sentido hablar de "correlación" para una variable aleatoria categórica.
( Nota: Es trivial demostrar que $\sum_k \mathbb{Cov}(I_k,X) = 0$ por lo que el vector de correlación para una variable aleatoria categórica está sujeto a esta restricción. Esto significa que dado el conocimiento del vector de probabilidad para la variable aleatoria categórica, y la desviación estándar de $X$ se puede derivar el vector de cualquier $m-1$ de sus elementos).
La exposición anterior es para los valores de correlación verdaderos, pero obviamente estos deben ser estimados en un análisis determinado. La estimación de las correlaciones de los indicadores a partir de los datos de la muestra es sencilla, y puede realizarse mediante la sustitución de las estimaciones adecuadas para cada una de las partes. (Si lo prefiere, puede utilizar métodos de estimación más sofisticados). Dados los datos de la muestra $(x_1, c_1), ..., (x_n, c_n)$ podemos estimar las partes de la ecuación de correlación como
$$\hat{\phi}_k \equiv \frac{1}{n} \sum_{i=1}^n \mathbb{I}(c_i=k).$$
$$\hat{\mathbb{E}}(X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i=1}^n x_i.$$
$$\hat{\mathbb{E}}(X|C=k) \equiv \bar{x}_k \equiv \frac{1}{n} \sum_{i=1}^n x_i \mathbb{I}(c_i=k) \Bigg/ \hat{\phi}_k .$$
$$\hat{\mathbb{S}}(X) \equiv s_X \equiv \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}.$$
La sustitución de estas estimaciones daría lugar a una estimación básica del vector de correlación. Si se dispone de información paramétrica sobre $X$ entonces se podría estimar el vector de correlación directamente por máxima verosimilitud o alguna otra técnica.
Si $X$ es una variable aleatoria continua y $Y$ es un v.r. categórico. la correlación observada entre $X$ y $Y$ puede ser medido por
No obstante, hay que tener en cuenta que la correlación punto-poliserial no es más que una generalización de la punto-biserial.
Para una visión más amplia, he aquí una tabla de Olsson, Drasgow & Dorans (1982)[1].
[1]: Fuente: Olsson, U., Drasgow, F., & Dorans, N. J. (1982). El coeficiente de correlación poliserial. Psychometrika, 47(3), 337-347
El paquete R mpmi tiene la capacidad de calcular la información mutua para el caso de variables mixtas, es decir, continuas y discretas. Aunque hay otras opciones estadísticas como el coeficiente de correlación biserial (puntual) que pueden ser útiles en este caso, sería beneficioso y muy recomendable calcular la información mutua, ya que puede detectar asociaciones distintas de las lineales y monótonas.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.
1 votos
Antes de preguntar "cómo se estudia", debería tener la respuesta a "cómo se define" :-) BTW, si proyectas la variable categórica a números enteros, ya puedes hacer la correlación.
3 votos
@Tomas, si haces eso, la fuerza estimada de la relación depende de cómo hayas decidido etiquetar los puntos, lo que da un poco de miedo :)
0 votos
@Macro, tienes razón - ¡otro sólido argumento para tener una buena definición!
0 votos
@Macro A no ser que haya entendido mal tu punto de vista, no. La correlación es insensible a las transformaciones lineales. Así que cor(X,Y) = cor(a+bX,Y) para a y b finitos. El reetiquetado de a 0/1 como 1/11 no hace nada a las correlaciones usando esa var o su transformación lineal.
0 votos
@Curious ver mi comentario a Macro arriba. Y nota: (1)
X <- sample(c(0,1),replace=TRUE,size=100)
(2)Y <- X + rnorm(100,0.5)
(3)corr(Y,X)
(4)X <- 1 + 10*X
(5)corr(X,Y)
: ¡los mismos resultados para ambas correlaciones!