10 votos

Es permitido el uso de promedios en un conjunto de datos para mejorar la correlación?

Tengo un conjunto de datos con un dependiente y una variable independiente. Ambos no son una serie de tiempo. Tengo 120 observaciones. El coeficiente de correlación es de 0,43

Después de este cálculo, he añadido una columna para ambas variables con el promedio de cada 12 observaciones, lo que resulta en 2 nuevas columnas con 108 observaciones (pares). El coeficiente de correlación de estas columnas es de 0.77

Parece que mejora la correlación de esta manera. Es esta permitido hacer? ¿Puedo aumentar la explicación de potencia de la variable independiente mediante el uso de promedios?

16voto

Ryan Puntos 31

Echemos un vistazo a dos vectores, siendo la primera

    2 6 2 6 2 6 2 6 2 6 2 6

y el segundo vector se

   6 2 6 2 6 2 6 2 6 2 6 2

El cálculo de la correlación de Pearson obtendrá

cor(a,b)
[1] -1

Sin embargo, si usted toma el promedio de los sucesivos pares de valores de ambos vectores son idénticos. Idéntico vectores han de correlación de 1.

  4 4 4 4 4 4  

Este sencillo ejemplo ilustra una desventaja del método.

Editar: Para explicarlo de manera más general: El coeficiente de correlación se calcula de la siguiente manera.

$E[(X-\mu_X)(Y-\mu_Y)]/\sigma_X\ \sigma_Y$

Con un promedio de $X$s y algunos $Y$s de los cambios de las diferencias entre el $X$ $\mu_X$ así como la diferencia entre el$Y$$\mu_Y$.

10voto

Nick Cox Puntos 22819

El promedio puede ser atractiva o conveniente. También puede ser una fuente de engaño, en el peor engaño, así que ves con cuidado, incluso cuando no hay una justificación clara para un promedio de.

Aquí es una situación que no es una buena idea. Considerar que por definición cuidadosa de los grupos de usted (por lo general) podría reducir los datos a dos puntos de resumen de cada uno distinto en las dos variables; y a continuación, habría que lograr una perfecta correlación con la magnitud de $1$. Felicitaciones, o no! La mejora aquí es falso sin un buen independiente de la razón para el procedimiento. No es necesario acercarse a este caso extremo para acercarse al peligro.

Hay algunas situaciones en las que el promedio puede tener sentido. Por ejemplo, si las variaciones estacionales son de poco o ningún interés, a continuación, un promedio anual en valores crea un reducido conjunto de datos en el que usted puede centrarse en aquellos anual de los valores.

En varios campos, los investigadores podrían estar interesados en correlaciones a muy diferentes escalas, por ejemplo, entre el desempleo y la delincuencia para los individuos, condados, estados, países (sustituir los términos de hacer más sentido).

El interés, y a menudo también una fuente importante de problemas de inferencia, es en la interpretación de lo que está pasando en diferentes escalas o niveles. Por ejemplo, una alta correlación entre la tasa de desempleo y la tasa de criminalidad para las áreas que no necesariamente significa que los desempleados tienen una mayor tendencia a ser criminales; se necesitan datos sobre las personas a estar claro en eso. El suministro de datos puede ser máximamente torpe en los datos disponibles sólo en el menos interesante de la escala, tal vez como una cuestión de economía o de confidencialidad.

Tomo nota también de que muchas de las medidas son, en primer lugar, a menudo los promedios más pequeños intervalos de tiempo y/o espacio pequeño intervalos, por lo que los datos a menudo llegan promedio en cualquier caso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X