14 votos

Medida no paramétrica de la fuerza de asociación entre una variable aleatoria ordinal y una continua

Aquí pongo el problema tal y como lo he recibido.

Tengo dos variables aleatorias. Una de ellas es continuo (Y) y la otra que es discreta y se abordará como ordinal (X). Pongo a continuación la trama que recibí junto con la consulta.

enter image description here

La persona que me envía los datos quiere medir la fuerza de la asociación entre X e Y. Estoy buscando ideas que no vengan cargadas de suposiciones sobre el proceso que generó los datos. Tenga en cuenta que no se trata de encontrar una forma no paramétrica de prueba la fuerza de la relación (como en el bootstrap) sino de encontrar una forma no paramétrica de medir lo.

Por otro lado, la eficiencia no es un problema, ya que hay muchos puntos de datos.

0 votos

¿Por "no paramétrico" quiere decir aquí que no se permite el cálculo de la media o la varianza?

13voto

Uri Puntos 111

Por definición, ordinal La escala es el indicador en el que las distancias reales entre las muescas 1 2 3 4 es desconocido. Es como si vieras a un gobernante bajo los efectos de las drogas o el alcohol. Las verdaderas distancias pueden ser cualquiera. Puede ser 1 2 3 4 ou 1 2 3 4 o lo que sea. No podemos calcular una estadística -como una correlación- si no decidimos las distancias, las fijamos.

Un razonamiento puede ser la siguiente. Dado que nuestra escala de medición, el calibre, está distorsionada de forma monótona desconocida, no podemos creer en los valores de los datos. Sólo el orden de sus magnitudes es digno de confianza. Sin más arrebato de cerebro, declaramos que el orden es el valor. Así, sustituimos la distribución observada por una distribución uniforme, la rangos . Después, puede calcular el coeficiente de asociación, por ejemplo, Pearson $r$ . Eso será Spearman $rho$ como sabemos. Pearson $r$ mide la fuerza de la asociación lineal. La clasificación de las variables fue un truco para linealizar la parte de la relación monótona que se atribuye a que las distribuciones no eran uniformes inicialmente. Así, Spearman $rho$ es la medida de dicha monotonicidad en la relación que puede convertirse en linealidad bajo la acción de uniformar las distribuciones marginales. En la pregunta de la OP, sólo una de las dos variables es ordinal (y la segunda es continua). Por lo tanto, no es necesario, en general, clasificar ambos variables. Puede simplemente clasificar el ordinal y luego calcular $r$ .

Otro enfoque La alternativa a la clasificación (uniformización), puede ser escalado óptimo de la variable ordinal. El escalamiento óptimo es un procedimiento iterativo cuyo objetivo es encontrar tales distancias en la escala ordinal -es decir, encontrar tal transformación monótona de la misma- de modo que la linealidad $r$ entre las variables es el máximo posible. Mientras que el enfoque de clasificación se basa en la premisa de que "la escala real corresponde a datos que tienen una distribución uniforme", el enfoque de escala óptima se basa en la premisa de que "la escala real corresponde a datos que tienen una distribución lineal máxima". $r$ ". El escalado óptimo puede realizarse en la regresión categórica (CATREG). Sin embargo, la regresión categórica requiere que la otra variable de entrada sea discreta (no necesariamente ordinal) y, por tanto, si es continua y tiene muchos valores únicos, tendrá que ser dividida arbitrariamente por usted.

También hay otros enfoques. Pero de cualquier manera, transformamos la escala ordinal monótonamente "para que..." (algún supuesto o algún objetivo), porque la escala ordinal está distorsionada para nosotros de forma desconocida. Otra decisión radicalmente distinta sería la de "despejarse" primero y decidir que, o bien no está distorsionada (es decir, es de intervalo), o bien está distorsionada de forma conocida (no es de intervalo), o bien es nominal.

Algunos enfoques asimétricos pueden incluir la regresión ordinal de la variable ordinal por la otra (intervalo/continua). O la regresión lineal de esta última por la ordinal, con el modelo en el que el predictor se toma como contraste polinómico (es decir, se introduce como b1X + b2X^2 + b3X^3,... ). La debilidad de estos enfoques es que son asimétricos: una variable es dependiente, la otra es independiente.

0 votos

Gracias; muy buena idea, calcular los rangos sobre una sola de las variables.

9voto

GenericTypeTea Puntos 27689

¿Hay alguna razón que Coeficiente de correlación de rango de Spearman (una medida no paramétrica de monótona asociación) no sería suficiente? ¿La monotonicidad es demasiado "frontal"? Se basa en las diferencias ( $d_{i} = x_{i} - y_{i}$ ) en rangos generados independientemente ( $x_{i}$ et $y_{i}$ ) para sus variables:

$r_{\text{S}} = 1-\frac{6\sum_{i=1}^{n}{d^{2}_{i}}}{n\left(n^{2}-1\right)}$

Si la monotonicidad es un supuesto demasiado estricto, me pregunto si los enfoques basados en la información máxima, como el propuesto por Reshef (2011, 2013), que ni siquiera suponen funcional relaciones entre $X$ et $Y$ ¿podría estar más en la línea de lo que está buscando?

Referencias

Reshef, D., Reshef, Y., Finucane, H., Grossman, S., McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher, M., y Sabeti, P. (2011). Detección de nuevas asociaciones en grandes conjuntos de datos. Ciencia , 334(6062):1518-1524.

Reshef, D., Reshef, Y., Mitzenmacher, M., y Sabeti, P. (2013). Análisis de equidad del coeficiente de información máxima, con comparaciones . arXiv , 14 de agosto.

1 votos

Ambas parecen muy buenas ideas. De hecho, los dos enfoques que propones incluso complemento entre sí. Dejaré la pregunta abierta todavía un rato.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X