Suponga que tiene una colección grande pero finita de tweets. Quiere saber si hablar de fútbol tiende a correlacionarse con hablar de baloncesto. Puedes generar una tabla para unos cientos de usuarios con x's de menciones de la "NFL", e y's de menciones de la "NBA" para cada usuario. Ahora considere el caso en el que más de la mitad de ellos son (0,0). De hecho, tengo tablas de este tipo para muchos pares de palabras: algunos gráficos se parecen a un desordenado y=mx, otros parecen limitados por y=1/mx, otros son un cuadrante de una escopeta.
P: ¿hay alguna forma matemática de describir las estadísticas, las correlaciones, cuando tantos valores son (0,0)?
Intuitivamente hablando, me he encontrado con dos problemas:
1) Utilizando una simple función de correlación lineal en una hoja de cálculo, parece que obtengo valores de correlación (r^2) similares tanto si "puedo decir" que es una escopeta como si es un sistema acotado y=1/x (es decir, exclusividad). Me gustaría una medida que distinga entre la exclusividad y la ausencia de relación.
2) A veces he generado gráficos que se parecen a y=1/x, y demuestran un caso de exclusividad (como ovejas vs. cabras) que ya creo que es cierto. Otras veces, para conceptos muy similares, sin embargo, veo la misma forma de gráfico que implica exclusividad, una discrepancia que parece ilógica (como "fútbol" frente a "NFL"), a menos que haya descubierto de algún modo poblaciones distintas que utilizan palabras diferentes para describir un interés similar. Me pregunto si lo que mi respuesta intuitiva a estos gráficos de exclusividad es ignorar cientos de puntos aplastados en el origen : (1,1)'s.
Espero una operación estadística que elimine mi intuición de este análisis. Gracias