87 votos

Es significativo para calcular Pearson o de Spearman de correlación entre dos vectores Booleanos?

Hay dos vectores Booleanos, que contienen 0 y 1 sólo. Si tengo que calcular la prueba de Pearson o de Spearman de correlación, son significativas o razonable?

64voto

Nick Cox Puntos 22819

La prueba de Pearson y de Spearman de correlación se define como el tiempo que tienen algunos $0$s y algunos $1$s por tanto de dos variables binarias, decir $y$$x$. Es fácil obtener una buena idea cualitativa de lo que entendemos por pensamiento de un gráfico de dispersión de las dos variables. Claramente, sólo hay cuatro posibilidades de $(0,0), (0,1), (1, 0), (1,1)$ (de modo que el temblor de sacudir idénticos puntos de diferencia para la visualización es una buena idea). Por ejemplo, en cualquier situación en la que los dos vectores son idénticos, entonces, por definición, $y = x$ y la correlación no es necesariamente $1$. Es posible, asimismo, que el $y = 1 -x$ y, a continuación, la correlación es $-1$.

Para esto, no hay margen para monótona de las relaciones que no son lineales. Al tomar los rangos de $0$s y $1$s bajo que el habitual midrank de la convención de las filas son sólo una transformación lineal de las originales, $0$s y $1$s y la correlación de Spearman es necesariamente idéntica a la de correlación de Pearson. Por lo tanto no hay ninguna razón para considerar la correlación de Spearman por separado aquí, o en todos.

Correlaciones surgir de forma natural para algunos de los problemas que implican $0$s y $1$s, por ejemplo, en el estudio de los binarios de los procesos en el tiempo o en el espacio. En conjunto, sin embargo, habrá mejores maneras de pensar acerca de los datos, dependiendo en gran medida de la motivación principal para este tipo de estudio. Por ejemplo, el hecho de que las correlaciones mucho sentido no significa que la regresión lineal es una buena manera para un modelo de respuesta binaria. Si una de las variables binarias es una respuesta, en la mayoría de los estadísticos de la gente estaría de comenzar considerando un modelo logit.

32voto

Digio Puntos 637

Hay especializado de las métricas de similitud para los vectores binarios, tales como:

  • Jaccard-Needham
  • Dados
  • Yule
  • Russell-Rao
  • Sokal-Michener
  • Rogers-Tanimoto
  • Kulzinsky

etc.

Para más detalles, consulte aquí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X