17 votos

¿Por qué la correlación no es muy útil cuando una de las variables es categórico?

Esto es un poco de un gut check, por favor ayúdame a ver si me estoy entendiendo este concepto, y de qué manera.

Tengo una comprensión funcional de correlación, pero me estoy sintiendo un poco de agarrar-en-pajas realmente con confianza explicar los principios que detrás de esa comprensión funcional.

Como yo lo entiendo, correlación estadística (frente a los más de uso general del término), es una manera de entender dos variables continuas y la manera en que lo hacen, o no, tienden a elevarse o caer en formas similares.

La razón por la que no se puede ejecutar correlaciones, es decir, un continuo y una variable categórica es porque no es posible calcular la covarianza entre los dos, ya que la variable categórica, por definición, no puede dar una media, y por lo tanto no puede entrar aún en los primeros pasos del análisis estadístico.

Es ese derecho?

18voto

Stefan Puntos 737

La correlación es el estandarizada de covarianza, yo.e la covarianza de $x$ $y$ dividido por la desviación estándar de $x$$y$. Permítanme ilustrar esto.

Estadísticas prácticamente se reduce a la colocación de los modelos de datos y la evaluación de lo bien que el modelo describe los puntos de datos (Resultado = Modelo + de Error). Una forma de hacerlo es calcular la suma de deviances, o residuos (res) de la modelo:

$res= \sum(x_{i}-\bar{x})$

Muchos de los cálculos estadísticos se basan en esto, incl. el coeficiente de correlación (ver más abajo).

Aquí es un ejemplo de conjunto de datos hecha en R (los residuos son indicados como líneas rojas y sus valores agregados a su lado):

X <- c(8,9,10,13,15)  
Y <- c(5,4,4,6,8)

enter image description here

Mirando los datos de cada punto por separado y restando su valor en el modelo (por ejemplo, la media; en este caso, X=11 y Y=5.4), se podría evaluar la precisión de un modelo. Uno podría decir que el modelo de sobre-/ a subestimar el valor real. Sin embargo, cuando se suma todo el deviances de la modelo, el error total tiende a ser cero, los valores se cancelan uno al otro porque hay valores positivos (el modelo subestima un punto de datos) y de valores negativos (el modelo sobrestima un punto de datos). Para resolver este problema, las sumas de deviances son cuadrados y que ahora se llama sumas de cuadrados ($SS$):

$SS = \sum(x_i-\bar{x})(x_i-\bar{x}) = \sum(x_i-\bar{x})^2$

Las sumas de cuadrados son una medida de la desviación del modelo (es decir, la media o cualquier otra linea ajustada a un conjunto de datos). No es muy útil para la interpretación de la desviación de la modelo (y su comparación con otros modelos), ya que depende del número de observaciones. Las observaciones más la mayor de las sumas de cuadrados. Esta puede ser tomada con cuidado dividiendo las sumas de cuadrados con $n-1$. La muestra resultante de la varianza ($s^2$) se convierte en el "error promedio" entre la media y las observaciones y por lo tanto es una medida de lo bien que encaja el modelo (es decir, representa) los datos:

$s^2 = \frac{SS}{n-1} = \frac{\sum(x_i-\bar{x})(x_i-\bar{x})}{n-1} = \frac{\sum(x_i-\bar{x})^2}{n-1}$

Para mayor comodidad, la raíz cuadrada de la varianza de la muestra puede ser tomada, la cual es conocida como la desviación estándar de la muestra:

$s=\sqrt{s^2}=\sqrt{\frac{SS}{n-1}}=\sqrt{\frac{\sum(x_i-\bar{x})^2}{n-1}}$

Ahora, la covarianza evalúa si dos variables están relacionadas entre sí. Un valor positivo indica que cuando una variable se desvía de la media, la otra variable se desvía en la misma dirección.

$cov_{x,y}= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{n-1}$

Por medio de la estandarización, expresamos la covarianza por unidad de desviación estándar, que es el coeficiente de correlación de Pearson $r$. Esto permite la comparación de las variables que se midieron en diferentes unidades. El coeficiente de correlación es una medida de la fuerza de una relación que oscila entre -1 (una perfecta correlación negativa) a 0 (sin correlación) y +1 (una perfecta correlación positiva).

$r=\frac{cov_{x,y}}{s_x s_y} = \frac{\sum(x_1-\bar{x})(y_i-\bar{y})}{(n-1) s_x s_y}$

En este caso el coeficiente de correlación de Pearson es $r=0.87$, que puede considerarse como una fuerte correlación (aunque esto también es relativo dependiendo del campo de estudio). Para comprobar esto, aquí otra parcela con X en el eje x y Y sobre el eje y:

enter image description here

Así cortocircuito largo de la historia, sí, su sentimiento es correcto pero espero que mi respuesta puede dar un poco de contexto.

9voto

Pere Puntos 658

Usted está (casi) a la derecha. La covarianza (y, por tanto, la correlación también) puede ser calculada sólo entre variables numéricas. Que incluye las variables continuas, pero también discretas variables numéricas.

Las variables categóricas podría ser usada para calcular la correlación sólo se da una útil código numérico para ellos, pero esto no es probable que obtenga una ventaja práctica - tal vez podría ser útil para algunos de los dos niveles de las variables categóricas, pero otras herramientas son probablemente los más adecuados.

6voto

Josh Pearce Puntos 2288

No hay absolutamente nada de malo con la informática correlaciones donde una de las variables categóricas. Una fuerte correlación positiva implicaría que el giro de su variable categórica (o desactivar dependiendo de su convención) provoca un aumento en la respuesta. Por ejemplo, esto puede suceder cuando el cálculo de una regresión logística donde las variables son categóricas: predicción de la probabilidad de un ataque al corazón paciente comorbilidades como la diabetes y el imc. En este caso el IMC habría habría una correlación muy fuerte con los ataques al corazón. Podría llegar a la conclusión de que no es útil?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X