19 votos

Coeficiente de correlación entre una variable nominal (no dicotómica) y una variable numérica (de intervalo) o una variable ordinal

Ya he leído todas las páginas de este sitio tratando de encontrar la respuesta a mi problema pero ninguna parece ser la adecuada para mí...

Primero te explico el tipo de datos con los que estoy trabajando...

Digamos que tengo un vector array con varios nombres de ciudad, uno por cada uno de los 300 usuarios. También tengo otro vector array con las puntuaciones de respuesta a una encuesta de cada usuario o un valor continuo para cada usuario.

Me gustaría saber si existe un coeficiente de correlación que calcule la correlación entre estas dos variables, es decir, entre una variable nominal y una numérica/continua u ordinal.

He buscado en Internet y en algunas páginas sugieren utilizar el coeficiente de contingencia o la V de Cramer o el coeficiente Lambda o Eta . Para cada una de estas medidas lo único que dicen es que se pueden aplicar para esos datos en los que tenemos una variable nominal y una variable de intervalo o numérica. El caso es que buscando y rebuscando, tratando de entender cada una de ellas, alguna vez se escribe o se ven los ejemplos de que son razonables para usarlas si se tiene variable nominal dicotómica, excepto la V de Cramer, otra vez no se escribe ningún requisito para el tipo de datos. Muchas otras páginas dicen que es correcto aplicar la regresión en su lugar, eso es correcto, pero simplemente me gustaría saber si hay un coeficiente como el de pearson/spearman para este tipo de datos.

También creo que no es tan correcto utilizar el coeficiente de correlación de Spearman ya que las ciudades no son ordenables.

También he construido la función de Cramer'sV y Eta por mí mismo (estoy trabajando con Matlab) pero para Eta no hablan de ningún valor p para ver si el coeficiente es estadísticamente significativo...

En el sitio de matlabWorks también hay una bonita caja de herramientas que dice calcular eta^2 pero el tipo de entrada que necesita no es comprensible.

¿Hay alguien que haya hecho una prueba como la mía? Si necesitas más detalles para entender el tipo de datos que estoy usando solo pregúntame e intentaré explicarte mejor.

1 votos

Cramérs V es para dos nominales. ¿Qué tiene de malo la regresión? Tomar la variable numérica como respuesta y regresarla a la nominal (usando dummies). Mira la $R^2$ y la prueba F global asociada.

0 votos

No hay nada de malo en la regresión, pero como ya tenemos esa medida nos gustaría comprobarla de otra manera como doble comprobación con un coeficiente de correlación....gracias por la respuesta

0 votos

No has dicho nada específico sobre tu variable "numérica/ordinal". Qué ¿te hace plantearlo ordinal? ¿numérico?

27voto

Uri Puntos 111

Nominal vs. Intervalo

La medida de "correlación" más clásica entre un nominal y un intervalo ("numérico") es Eta también llamado coeficiente de correlación, e igual a la raíz R-cuadrada del ANOVA unidireccional (con valor p = el del ANOVA). Eta puede considerarse una medida de asociación simétrica, como la correlación, porque Eta del ANOVA (con el nominal como independiente, el numérico como dependiente) es igual a la traza de Pillai de la regresión multivariante (con el numérico como independiente, conjunto de variables ficticias correspondientes al nominal como dependiente).

Una medida más sutil es el coeficiente de correlación intraclase ( ICC ). Mientras que Eta sólo capta la diferencia entre grupos (definida por la variable nominal) con respecto a la variable numérica, el CCI mide simultáneamente también la coordinación o concordancia entre los valores numéricos dentro de los grupos; en otras palabras, el CCI (en particular la versión original de "emparejamiento" insesgado) se mantiene en el nivel de los valores mientras que Eta opera en el nivel de las estadísticas (medias de los grupos frente a las varianzas de los grupos).

Nominal vs Ordinal

La pregunta sobre la medida de "correlación" entre un nominal y un ordinal es menos evidente. La razón de la dificultad es que la escala ordinal es, por su naturaleza, más "mística" o "retorcida" que las escalas de intervalo o nominales. No es de extrañar que los análisis estadísticos especiales para datos ordinales estén relativamente mal formulados hasta ahora.

Una forma podría ser convertir los datos ordinales en filas y luego calcular Eta como si los rangos fueran datos de intervalo. El valor p de dicha Eta = el del análisis de Kruskal-Wallis. Este enfoque parece justificado debido al mismo razonamiento por el que se utiliza la rho de Spearman para correlacionar dos variables ordinales. Esa lógica es "cuando no se conocen los anchos de los intervalos en la escala, hay que cortar el nudo gordiano linealizando cualquier posible monotonicidad: hay que clasificar los datos".

Otro enfoque (posiblemente más riguroso y flexible) sería utilizar regresión logística ordinal con la variable ordinal como VD y la nominal como IV. La raíz cuadrada de Nagelkerke's La pseudo R-cuadrado (con el valor p de la regresión) es otra medida de correlación para usted. Tenga en cuenta que puede experimentar con varias funciones de enlace en la regresión ordinal. Sin embargo, esta asociación no es simétrica: los nominales se suponen independientes.

Otro enfoque podría ser encontrar tal transformación monótona de los datos ordinales en intervalo -en lugar de la clasificación del penúltimo párrafo- que maximizar R (es decir Eta ) para usted. Esto es regresión categórica (= regresión lineal con escala óptima).

Otro enfoque es realizar árbol de clasificación como CHAID, con la variable ordinal como predictor. Este procedimiento bin juntos (de ahí que sea el enfoque opuesto al anterior) categorías ordenadas adyacentes que no distinguen entre las categorías del predicado nominal. Entonces podría confiar en las medidas de asociación basadas en el Chi-cuadrado (como la V de Cramer) como si correlacionara las variables nominales con las nominales.

Y @Michael en su comentario sugiere una forma más - un coeficiente especial llamado Freeman's Theta .

Así pues, hasta ahora hemos llegado a estas posibilidades (1) Clasificar y luego calcular Eta; (2) Utilizar la regresión ordinal; (3) Utilizar la regresión categórica (transformando "óptimamente" la variable ordinal en intervalo); (4) Utilizar el árbol de clasificación (reduciendo "óptimamente" el número de categorías ordenadas); (5) Utilizar Theta de Freeman.

3 votos

P.D. En el blog de Jeromy Anglim hay un buen resumen sobre los enfoques de las variables ordinales jeromyanglim.blogspot.ru/2009/10/

2 votos

Una medida de asociación entre un ordinal y un nominal se llama "Freeman's $\theta$ ". Por desgracia, no tengo ninguna referencia de acceso abierto a mano.

2 votos

@Michael gracias, aquí encontré un artículo "Una nota más sobre la medida de asociación de Freeman" moreno.ss.uci.edu/22.pdf

1voto

Calvin Puntos 111

Haga un anova de una vía en la respuesta, con la ciudad como variable de agrupación. El $F$ y $p$ que da debería ser el mismo que el $F$ y $p$ de la regresión de la respuesta sobre las ciudades con código ficticio, y $SS_{between\, cities}/SS_{total}$ debe ser igual al múltiplo $R^2$ de la regresión. El múltiplo $R$ es la correlación de la ciudad con la respuesta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X