24 votos

¿Existe una correlación ponderada?

Tengo algunos datos interesantes sobre los artistas musicales más escuchados en streaming divididos por ubicación en unos 200 distritos del Congreso. Quiero ver si es posible encuestar a una persona sobre sus preferencias musicales y determinar si "escucha como un demócrata" o "escucha como un republicano". (Naturalmente, esto es a la ligera, ¡pero hay verdadera entropía en los datos!).

Tengo datos sobre unos 100 artistas, además del porcentaje medio de votos para republicanos y demócratas en cada distrito en los tres últimos ciclos electorales. Así que hice una correlación con cada artista para ver cuáles eran los más desproporcionadamente escuchados en función del porcentaje de votos para los demócratas. Esas correlaciones oscilan entre -0,3 y 0,3 para cualquier artista, con muchas en el medio que tienen poco o ningún poder predictivo.

Tengo dos preguntas: En primer lugar, el número total de arroyos por distrito varía mucho. En este momento, estoy correlacionando el porcentaje de todos los streams por distrito que pertenecen a, digamos, Beyonce, con el porcentaje de votos emitidos a favor de los demócratas. Pero el total de streams en un distrito puede ser de millones, mientras que en otro es de unos 100.000. ¿Necesito ponderar la correlación? ¿Tengo que ponderar la correlación de alguna manera para tener esto en cuenta?

En segundo lugar, tengo curiosidad por saber cómo combinar estas correlaciones en una conjetura compuesta sobre la política del usuario. Digamos que tomo los 20 artistas con los valores correlativos absolutos más altos (positivos y negativos), diez en cada dirección, y pregunto a un usuario cuánto le gusta cada artista. Así tengo los votos a favor o en contra de cada artista más la correlación con la política de los 20 valores. ¿Existe una forma estándar de combinar estas correlaciones en una única estimación? (Estoy pensando en algo parecido a la famosa cuestionario dialectal donde combinaba las probabilidades regionales de 25 preguntas en un mapa térmico. Pero en este caso, solo necesito un único valor sobre cómo de demócrata o republicano es el gusto musical de cada uno.

Gracias.

39voto

Dipstick Puntos 4869

La fórmula para la correlación de Pearson ponderada puede encontrarse fácilmente en la red , StackOverflow y Wikipedia y se implementa en varios paquetes de R, por ejemplo psiquiatría o pesos y en Python modelos estadísticos paquete. Se calcula como la correlación normal pero utilizando medios ponderados ,

$$ m_X = \frac{\sum_i w_i x_i}{\sum_i w_i}, ~~~~ m_Y = \frac{\sum_i w_i y_i}{\sum_i w_i} $$

desviaciones ponderadas ,

$$ s_X = \frac{\sum_i w_i (x_i - m_X)^2}{ \sum_i w_i}, ~~~~ s_Y = \frac{\sum_i w_i (y_i - m_Y)^2}{ \sum_i w_i} $$

y covarianza ponderada

$$ s_{XY} = \frac{\sum_i w_i (x_i - m_X)(y_i - m_Y)}{ \sum_i w_i} $$

teniendo todo esto se puede calcular fácilmente la correlación ponderada

$$ \rho_{XY} = \frac{s_{XY}}{\sqrt{s_X s_Y}} $$

En cuanto a tu segunda pregunta, tal y como yo lo entiendo, tendrías datos sobre correlaciones entre orientación política y preferencia por los veinte artistas y usuarios respuestas binarias sobre su preferencia y quieres obtener algún tipo de medida agregada de ello.

Empecemos por promediar las correlaciones. Existen múltiples métodos de promediación de probabilidades pero no parece que haya tantos enfoques para promediar correlaciones. Una cosa que se podría hacer es utilizar Fisher's $z$ -transformación como descrito en MathOverflow es decir

$$ \bar\rho = \tanh \left(\frac{\sum_{j=1}^K \tanh^{-1}(\rho_j)}{K} \right) $$

Reduce la asimetría de la distribución y la aproxima a la normalidad. Este procedimiento también fue descrito por Bushman y Wang (1995) y Corey, Dunlap y Burke (1998).

A continuación, debe tener en cuenta que si $r = \mathrm{cor}(X,Y)$ entonces $-r = \mathrm{cor}(-X,Y) = \mathrm{cor}(X,-Y)$ Así pues, la correlación positiva de la preferencia musical con alguna orientación política es la misma que la correlación negativa de la aversión musical con dicha orientación política, y al revés.

Ahora, definamos $r_j$ como correlación de la preferencia musical de $j$ -artista a alguna orientación política, y $x_{ij}$ como $i$ -a preferencia del usuario por $j$ -ésimo artista, donde $x_{ij} = 1$ de preferencia y $x_{ij} = -1$ por desagrado. Puede definir su estimación final como

$$ \bar r_i = \tanh \left(\frac{\sum_{j=1}^K \tanh^{-1}(r_j x_{ij})}{K} \right) $$

es decir, calcular la correlación media que invierte los signos de las correlaciones según se trate de artistas preferidos o no preferidos. Aplicando este procedimiento se obtiene la "correlación" media entre las preferencias de los usuarios y su orientación política, que como correlación normal oscila entre $-1$ a $1$ .

Pero...

¿No crees que todo esto es exagerado para algo que es básicamente un problema de regresión múltiple? En lugar de todas las ponderaciones y promedios, se podría utilizar simplemente una regresión múltiple ponderada (lineal o logística, dependiendo de si se predice una preferencia binaria o un grado de preferencia en cualquier dirección) en la que las ponderaciones se basaran en el tamaño de las submuestras. Se utilizaría la preferencia musical por cada artista como predictor. Al final, utilizarás la preferencia del usuario para hacer predicciones. Este enfoque es más sencillo y estadísticamente más elegante. También aplica relativa a los artistas, mientras que promediar las correlaciones no corrige su "impacto" relativo en la puntuación final. Además, la regresión tiene en cuenta el índice de base (o la orientación política por defecto), mientras que la media de las correlaciones no lo hace. Imaginemos que la gran mayoría de la población prefiere el partido $A$ esto debería hacerte menos ansioso por predecir $B$ y la regresión lo tiene en cuenta incluyendo el intercepto. El único problema es la multicolinealidad, pero al calcular la media de las correlaciones se ignora en lugar de tratarla.


Bushman, B.J., y Wang, M.C. (1995). Un procedimiento para combinar los coeficientes de correlación de la muestra y el recuento de votos para obtener una estimación y un intervalo de confianza para el coeficiente de correlación de la población. Psychological Bulletin, 117(3), 530.

Corey, D.M., Dunlap, W.P., y Burke, M.J. (1998). Promedio de correlaciones: Valores esperados y sesgo en las transformaciones combinadas de rs de Pearson y z de Fisher z de Fisher combinadas The Journal of General Psychology, 125(3), 245-261.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X