¿Cómo puedo estudiar la "correlación" entre una variable continua y una variable categórica?

Question

¿Cómo puedo estudiar la "correlación" entre una variable continua y una variable categórica?

Preguntado el 30 de Mayo, 2012: Cuando se hizo la pregunta
15681 visitas: Cuantas visitas ha tenido la pregunta
5 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

¿Cuál es una medida de "correlación" significativa para estudiar la relación entre estos dos tipos de variables?

En R, ¿cómo hacerlo?

¡Muchas gracias!

Preguntado el 30 de Mayo, 2012 por kingchris

1 votos

Antes de preguntar "cómo se estudia", debería tener la respuesta a "cómo se define" :-) BTW, si proyectas la variable categórica a números enteros, ya puedes hacer la correlación.

Comentado el 30 de Mayo, 2012 por Iwasakabukiman

3 votos

@Tomas, si haces eso, la fuerza estimada de la relación depende de cómo hayas decidido etiquetar los puntos, lo que da un poco de miedo :)

Comentado el 30 de Mayo, 2012 por Niall

0 votos

@Macro, tienes razón - ¡otro sólido argumento para tener una buena definición!

Comentado el 30 de Mayo, 2012 por Iwasakabukiman

Mostrar 2 comentarios más

Answer 1

5 Respuestas

Answer 2

26voto

geni Puntos 91

Sólo un pequeño comentario sobre la contribución de Artur Avila a la teoría espectral: Una parte de ella (junto con Svetlana Jitomirskaya) fue demostrar que la mariposa de Hofstadter

realmente tiene la estructura de tipo Cantor que se ve. Este fue el famoso El problema de los diez martinis .

Descargo de responsabilidad : Lo anterior es una simplificación excesiva. Que el conjunto mostrado en la imagen es un conjunto de Cantor se debe a Last a mediados de los años noventa, pero el teorema de Avila--Jitomriskaya afirma que lo mismo es cierto para un gran conjunto de parámetros.

Segundo descargo de responsabilidad : Esta es sólo una pequeña (pero importante) parte de la contribución de Ávila a las matemáticas.

La imagen está tomada de http://en.wikipedia.org/wiki/Hofstadter%27s_butterfly

Respondido el 30 de Mayo, 2012 por geni (91 Puntos )

1 votos

Gracias. Pero, ¿a qué nivel de IM corresponde el corr=1 y a qué nivel de IM corresponde el corr=0?

Comentado el 31 de Mayo, 2012 por kingchris

1 votos

MI tiene un mínimo de 0, y MI = 0 si y sólo si las variables son independientes. Sin embargo, el IM no tiene un límite superior constante (el límite superior está relacionado con las entropías de las variables), por lo que es posible que desee buscar una de las versiones normalizadas si eso es importante para usted.

Comentado el 31 de Mayo, 2012 por geni

Answer 3

6voto

mat_geek Puntos 1367

Si la variable categórica es ordinal y se divide la variable continua en algunos intervalos de frecuencia, se puede utilizar la Gamma. También están disponibles para datos emparejados puestos en forma ordinal la tau de Kendal, la tau de Stuart y la D de Somers. No sé cómo se calculan utilizando las rutinas de R. Aquí hay un enlace a una presentación que da información detallada: http://faculty.unlv.edu/cstream/ppts/QM722/measuresofassociation.ppt#260,5,Measures de asociación para variables nominales y ordinales

Respondido el 30 de Mayo, 2012 por mat_geek (1367 Puntos )

Answer 4

4voto

Aaron Puntos 36

Una variable categórica es efectivamente un conjunto de variables indicadoras. Una idea básica de la teoría de la medición es que dicha variable es invariable al reetiquetado de las categorías, por lo que no tiene sentido utilizar el etiquetado numérico de las categorías en ninguna medida de la relación entre otra variable (por ejemplo, la "correlación"). Por esta razón, y la medida de la relación entre una variable continua y una variable categórica debe basarse enteramente en las variables indicadoras derivadas de esta última.

Dado que quieres una medida de "correlación" entre las dos variables, tiene sentido mirar la correlación entre una variable aleatoria continua $X$ y una variable aleatoria indicadora $I$ derivada de t una variable categórica. Dejando que $\phi \equiv \mathbb{P}(I=1)$ que tenemos:

$$\mathbb{Cov}(I,X) = \mathbb{E}(IX) - \mathbb{E}(I) \mathbb{E}(X) = \phi \left[ \mathbb{E}(X|I=1) - \mathbb{E}(X) \right] ,$$

que da:

$$\mathbb{Corr}(I,X) = \sqrt{\frac{\phi}{1-\phi}} \cdot \frac{\mathbb{E}(X|I=1) - \mathbb{E}(X)}{\mathbb{S}(X)} .$$

Así, la correlación entre una variable aleatoria continua $X$ y una variable aleatoria indicadora $I$ es una función bastante simple de la probabilidad del indicador $\phi$ y la ganancia normalizada del valor esperado de $X$ a partir del condicionamiento $I=1$ . Nótese que esta correlación no requiere ninguna discretización de la variable aleatoria continua.

Para una variable categórica general $C$ con rango $1, ..., m$ entonces solo tendrías que extender esta idea para tener un vector de valores de correlación para cada resultado de la variable categórica. Para cualquier resultado $C=k$ podemos definir el indicador correspondiente $I_k \equiv \mathbb{I}(C=k)$ y nosotros sí:

$$\mathbb{Corr}(I_k,X) = \sqrt{\frac{\phi_k}{1-\phi_k}} \cdot \frac{\mathbb{E}(X|C=k) - \mathbb{E}(X)}{\mathbb{S}(X)} .$$

Podemos entonces definir $\mathbb{Corr}(C,X) \equiv (\mathbb{Corr}(I_1,X), ..., \mathbb{Corr}(I_m,X))$ como el vector de valores de correlación para cada categoría de la variable aleatoria categórica. Este es realmente el único sentido en el que tiene sentido hablar de "correlación" para una variable aleatoria categórica.

( Nota: Es trivial demostrar que $\sum_k \mathbb{Cov}(I_k,X) = 0$ por lo que el vector de correlación para una variable aleatoria categórica está sujeto a esta restricción. Esto significa que dado el conocimiento del vector de probabilidad para la variable aleatoria categórica, y la desviación estándar de $X$ se puede derivar el vector de cualquier $m-1$ de sus elementos).

La exposición anterior es para los valores de correlación verdaderos, pero obviamente estos deben ser estimados en un análisis determinado. La estimación de las correlaciones de los indicadores a partir de los datos de la muestra es sencilla, y puede realizarse mediante la sustitución de las estimaciones adecuadas para cada una de las partes. (Si lo prefiere, puede utilizar métodos de estimación más sofisticados). Dados los datos de la muestra $(x_1, c_1), ..., (x_n, c_n)$ podemos estimar las partes de la ecuación de correlación como

$$\hat{\phi}_k \equiv \frac{1}{n} \sum_{i=1}^n \mathbb{I}(c_i=k).$$

$$\hat{\mathbb{E}}(X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i=1}^n x_i.$$

$$\hat{\mathbb{E}}(X|C=k) \equiv \bar{x}_k \equiv \frac{1}{n} \sum_{i=1}^n x_i \mathbb{I}(c_i=k) \Bigg/ \hat{\phi}_k .$$

$$\hat{\mathbb{S}}(X) \equiv s_X \equiv \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}.$$

La sustitución de estas estimaciones daría lugar a una estimación básica del vector de correlación. Si se dispone de información paramétrica sobre $X$ entonces se podría estimar el vector de correlación directamente por máxima verosimilitud o alguna otra técnica.

Respondido el 25 de Enero, 2018 por Aaron (36 Puntos )

Answer 5

1voto

Hosam Bashir Puntos 16

Si $X$ es una variable aleatoria continua y $Y$ es un v.r. categórico. la correlación observada entre $X$ y $Y$ puede ser medido por

el correlación punto-biserial coeficiente, si $Y$ es dicotómico;
el correlación punto-poliseries coeficiente, si $Y$ es policotómico con categorías ordinales.

No obstante, hay que tener en cuenta que la correlación punto-poliserial no es más que una generalización de la punto-biserial.

Para una visión más amplia, he aquí una tabla de Olsson, Drasgow & Dorans (1982)[1].

[1]: Fuente: Olsson, U., Drasgow, F., & Dorans, N. J. (1982). El coeficiente de correlación poliserial. Psychometrika, 47(3), 337-347

Respondido el 24 de Octubre, 2018 por Hosam Bashir (16 Puntos )

Answer 6

0voto

siyisoy Puntos 21

El paquete R mpmi tiene la capacidad de calcular la información mutua para el caso de variables mixtas, es decir, continuas y discretas. Aunque hay otras opciones estadísticas como el coeficiente de correlación biserial (puntual) que pueden ser útiles en este caso, sería beneficioso y muy recomendable calcular la información mutua, ya que puede detectar asociaciones distintas de las lineales y monótonas.

Respondido el 24 de Mayo, 2018 por siyisoy (21 Puntos )

¿Cómo puedo estudiar la "correlación" entre una variable continua y una variable categórica?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cómo puedo estudiar la "correlación" entre una variable continua y una variable categórica?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: