4 votos

¿Correlacionar dos variables, con muchos valores (0,0)?

Suponga que tiene una colección grande pero finita de tweets. Quiere saber si hablar de fútbol tiende a correlacionarse con hablar de baloncesto. Puedes generar una tabla para unos cientos de usuarios con x's de menciones de la "NFL", e y's de menciones de la "NBA" para cada usuario. Ahora considere el caso en el que más de la mitad de ellos son (0,0). De hecho, tengo tablas de este tipo para muchos pares de palabras: algunos gráficos se parecen a un desordenado y=mx, otros parecen limitados por y=1/mx, otros son un cuadrante de una escopeta.

P: ¿hay alguna forma matemática de describir las estadísticas, las correlaciones, cuando tantos valores son (0,0)?

Intuitivamente hablando, me he encontrado con dos problemas:

1) Utilizando una simple función de correlación lineal en una hoja de cálculo, parece que obtengo valores de correlación (r^2) similares tanto si "puedo decir" que es una escopeta como si es un sistema acotado y=1/x (es decir, exclusividad). Me gustaría una medida que distinga entre la exclusividad y la ausencia de relación.

2) A veces he generado gráficos que se parecen a y=1/x, y demuestran un caso de exclusividad (como ovejas vs. cabras) que ya creo que es cierto. Otras veces, para conceptos muy similares, sin embargo, veo la misma forma de gráfico que implica exclusividad, una discrepancia que parece ilógica (como "fútbol" frente a "NFL"), a menos que haya descubierto de algún modo poblaciones distintas que utilizan palabras diferentes para describir un interés similar. Me pregunto si lo que mi respuesta intuitiva a estos gráficos de exclusividad es ignorar cientos de puntos aplastados en el origen : (1,1)'s.

Espero una operación estadística que elimine mi intuición de este análisis. Gracias

2voto

Alex Puntos 2961

Dado que hay tantos ceros, ¿has pensado en ignorar los recuentos y fijarte sólo en las probabilidades condicionales, es decir, la probabilidad de que un usuario mencione la NFL dado que tiene menciones de la NBA?

$$ P(User_{NFL} | User_{NBA}) = \frac{P(User_{NFL} \cap User_{NBA})}{P(User_{NBA})} $$

Dependiendo de lo que quieras mostrar, intenta buscar una de estas métricas

$$ \begin{align} allConfidence(A,B) &= min \big\{P(A|B), P(B|A)\big\}\\ maxConfidence(A,B) &= max \big\{P(A|B), P(B|A)\big\}\\ Kulczynski(A,B) &= \frac{1}{2}\big(P(A|B) + P(B|A) \big)\\ \end{align} $$

Creo que maxConfidence podría ser lo que buscas, pero puedes probar los tres y ver qué consigues.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X