26 votos

Promedio de los valores de correlación

Digamos que pruebo cómo variable Y depende de la variable X bajo diferentes condiciones experimentales y obtener el siguiente gráfico:

enter image description here

Las líneas discontinuas del gráfico anterior representan la regresión lineal para cada serie de datos (configuración experimental) y los números de la leyenda denotan la correlación de Pearson de cada serie de datos.

Me gustaría calcular la "correlación media" (o "correlación promedio") entre X y Y . ¿Puedo simplemente promediar el r ¿valores? ¿Qué pasa con el "criterio de determinación de la media"? $R^2$ ? ¿Debo calcular la media r y luego tomar el cuadrado de ese valor o debo calcular la media de los individuos $R^2$ 's?

33voto

Questioner Puntos 747

En el caso de los coeficientes de correlación de Pearson, suele ser conveniente transformar el r valores utilizando un Fisher z transformación. A continuación, promedie el z -y convertir la media de nuevo en un r valor.

Me imagino que también estaría bien para un coeficiente de Spearman.

Aquí está un papel y la wikipedia entrada .

2 votos

+1; Esta respuesta parece más apropiada y general que la respuesta aceptada, sin embargo, en el caso de uso particular, ¿no se desmoronaría para valores de r de 1? ¿Es razonable en este caso algo como un logit empírico en el que simplemente se "añadiría" un punto de datos que carece de correlación? Si es así, ¿dónde habría que añadirlo? ¿Habría que realizar una simulación monte carlo tomando dos variables aleatorias de las distribuciones de origen? ¿O bien ajustar r a un valor ligeramente inferior a 1? ¿Hasta qué punto habría que ajustar?

0 votos

¿Cuáles serían las transformaciones análogas para la V de Cramer, la U de Theil o los coeficientes de correlación?

17voto

jldugger Puntos 7490

La forma más sencilla es añadir una variable categórica $z$ para identificar las diferentes condiciones experimentales e incluirlo en su modelo junto con una "interacción" con $x$ eso es, $y \sim z + x\#z$ . Esto lleva a cabo las cinco regresiones a la vez. Su $R^2$ es lo que quieres.

Para ver por qué promediar el individuo $R$ pueden ser erróneos, supongamos que la dirección de la pendiente se invierte en algunas de las condiciones experimentales. Se promediaría un montón de 1's y -1's en torno a 0, lo que no reflejaría la calidad de ninguno de los ajustes. Para ver por qué promediar $R^2$ (o cualquier transformación fija de la misma) no es correcta, supongamos que en la mayoría de las condiciones experimentales sólo se tuvieran dos observaciones, por lo que su $R^2$ todos iguales $1$ Pero en un experimento, usted tuvo cien observaciones con $R^2=0$ . La media $R^2$ de casi 1 no reflejaría correctamente la situación.

5 votos

Perdone mi ignorancia, pero ¿qué significa el signo # en su respuesta?

1 votos

Creo que su respuesta es muy buena para la definición implícita de correlación utilizada. ¿Y si la entendieran como pendiente media estandarizada (tal vez implícita en la figura)? En ese caso sí que se quiere que los negativos y los positivos se cancelen. Tienes razón en cuanto al problema del tamaño de la muestra. Además, considera la posibilidad de trasladar tu comentario a tu respuesta.

0 votos

¿Quiere el $R^2$ o el ajustado $R^2$ ?

3voto

Bryan Rehbein Puntos 3947

La correlación media puede ser significativa. También hay que tener en cuenta la distribución de las correlaciones (por ejemplo, trazando un histograma).

Pero según tengo entendido, para cada individuo se tiene alguna clasificación de $n$ más las clasificaciones previstas de esos elementos para ese individuo, y se observa la correlación entre las clasificaciones de un individuo y las predichas.

En este caso, puede ser que la correlación no sea la mejor medida de lo bien que el algoritmo está haciendo predicciones. Por ejemplo, imagina que el algoritmo acierta perfectamente los primeros 100 elementos y los siguientes 200 totalmente mal, frente a lo contrario. Puede ser que sólo te importe la calidad de los primeros puestos. En este caso, podría mirar la suma de las diferencias absolutas entre la clasificación del individuo y la clasificación predicha, pero sólo entre los primeros puestos del individuo. $m$ artículos.

1voto

Dario Castañé Puntos 131

¿Qué tal si utilizamos el error medio cuadrático predicho (MSPE) para el rendimiento del algoritmo? Este es un enfoque estándar para lo que se intenta hacer, si se trata de comparar el rendimiento predictivo entre un conjunto de algoritmos.

0 votos

No estoy seguro de por qué este puesto stats.stackexchange.com/questions/17129/ se fusionó con éste. En mi opinión, se están planteando dos cuestiones diferentes: hay dos objetivos distintos.

1 votos

Tienes razón: son preguntas diferentes. He votado por reabrir el otro post (aunque no está claro qué efecto puede tener). Me disculpo por no haber visto tu comentario: si lo hubieras hecho en cambio marcado ¡ese puesto habría llegado a nuestro conocimiento varios años antes!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X