¿Correlacionar dos variables, con muchos valores (0,0)?

Question

¿Correlacionar dos variables, con muchos valores (0,0)?

Preguntado el 21 de Mayo, 2015: Cuando se hizo la pregunta
1442 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Suponga que tiene una colección grande pero finita de tweets. Quiere saber si hablar de fútbol tiende a correlacionarse con hablar de baloncesto. Puedes generar una tabla para unos cientos de usuarios con x's de menciones de la "NFL", e y's de menciones de la "NBA" para cada usuario. Ahora considere el caso en el que más de la mitad de ellos son (0,0). De hecho, tengo tablas de este tipo para muchos pares de palabras: algunos gráficos se parecen a un desordenado y=mx, otros parecen limitados por y=1/mx, otros son un cuadrante de una escopeta.

P: ¿hay alguna forma matemática de describir las estadísticas, las correlaciones, cuando tantos valores son (0,0)?

Intuitivamente hablando, me he encontrado con dos problemas:

1) Utilizando una simple función de correlación lineal en una hoja de cálculo, parece que obtengo valores de correlación (r^2) similares tanto si "puedo decir" que es una escopeta como si es un sistema acotado y=1/x (es decir, exclusividad). Me gustaría una medida que distinga entre la exclusividad y la ausencia de relación.

2) A veces he generado gráficos que se parecen a y=1/x, y demuestran un caso de exclusividad (como ovejas vs. cabras) que ya creo que es cierto. Otras veces, para conceptos muy similares, sin embargo, veo la misma forma de gráfico que implica exclusividad, una discrepancia que parece ilógica (como "fútbol" frente a "NFL"), a menos que haya descubierto de algún modo poblaciones distintas que utilizan palabras diferentes para describir un interés similar. Me pregunto si lo que mi respuesta intuitiva a estos gráficos de exclusividad es ignorar cientos de puntos aplastados en el origen : (1,1)'s.

Espero una operación estadística que elimine mi intuición de este análisis. Gracias

Preguntado el 21 de Mayo, 2015 por AlanBarber

Answer 1

1 Respuestas

Answer 2

2voto

Alex Puntos 2961

Dado que hay tantos ceros, ¿has pensado en ignorar los recuentos y fijarte sólo en las probabilidades condicionales, es decir, la probabilidad de que un usuario mencione la NFL dado que tiene menciones de la NBA?

$$ P(User_{NFL} | User_{NBA}) = \frac{P(User_{NFL} \cap User_{NBA})}{P(User_{NBA})} $$

Dependiendo de lo que quieras mostrar, intenta buscar una de estas métricas

$$ \begin{align} allConfidence(A,B) &= min \big\{P(A|B), P(B|A)\big\}\\ maxConfidence(A,B) &= max \big\{P(A|B), P(B|A)\big\}\\ Kulczynski(A,B) &= \frac{1}{2}\big(P(A|B) + P(B|A) \big)\\ \end{align} $$

Creo que maxConfidence podría ser lo que buscas, pero puedes probar los tres y ver qué consigues.

Respondido el 21 de Mayo, 2015 por Alex (2961 Puntos )

¿Correlacionar dos variables, con muchos valores (0,0)?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Correlacionar dos variables, con muchos valores (0,0)?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: