Tengo una muestra de 1 millón de artículos de la web con diversas características. Estoy seleccionando características para utilizarlas en una métrica/predicción de la calidad de los artículos. Para tener una idea de los datos y de qué características pueden ser las mejores, he calculado las correlaciones entre las características.
Se ha producido el siguiente problema: Para las características A="vistas del artículo" y B="recuento de pulgares hacia arriba" la correlación es de 0,32 (Pearson) o 0,26 (Spearman). La intuición sugiere que sí existe una correlación. Las características por sí mismas me parecen distribuidas exponencialmente (muchos valores pequeños, muy pocos valores grandes). Quise ver una vista gráfica de la correlación, pero el diagrama de dispersión no reveló nada y mucho menos una asociación lineal.
Así que agregué los datos de la siguiente manera:
- Ordenar todos los puntos de datos por A (vistas del artículo).
- Divida la lista en n=100 trozos igualmente grandes.
- Calcula la suma(A) y la suma(B) de todos los trozos.
Ahora, cuando trazo los 100 pares de valores suma(B) sobre suma(A), ¡se muestra una línea recta casi perfecta! (salvo una pequeña aberración al principio). La correlación de Pearson es casi 1.
¿Qué muestra esto / Qué debo hacer con esto?
¿Significa esto que hay una fuerte dependencia entre A y B "en general", pero para los artículos individuales hay "ruido"? ¿Puede tener algo que ver con Falacia ecológica ? ¿Sugiere una forma diferente de explorar la asociación entre estas variables?