8 votos

Correlación de peso por tamaño de muestra

Soy un estudioso de las humanidades, tratando de no ser un completo idiota acerca de las estadísticas. Tengo un problema relevante para algunos filológica de artículos que estoy escribiendo. Para evitar la introducción de los oscuros tecnicismos de mi campo me voy a la refundición de esto como una simple ficción "arqueología" del problema.

En el Valle de las Brujas existen 29 de tumbas. Cada uno contiene una variedad de monedas y piedras preciosas. Algunas de las monedas son monedas de oro y algunas de las piedras preciosas son saphires.

Hay una hipótesis en el campo, el cual predice que la proporción de monedas de oro monedas total debe correlacionarse positivamente con la proporción de zafiros total de las piedras preciosas. Vamos a llamar a este Angmar de la predicción.

Me gustaría probar Angmar la predicción para el conjunto de datos a continuación. Si me quedo en un simple correlación de Pearson en todos los 29 puntos de datos puedo obtener una correlación muy cercano a cero (0.01). Esto se ve mal para Angmar - pero es toda la historia?

Algunos de los puntos de datos son claramente mejores que otros. Tumba 1 de 46 gemas y 990 monedas. Que parece ser mucho más sólido punto de datos de la Tumba de 29, que tiene sólo 4 gemas y 80 monedas. En el conjunto de datos a continuación he arreglado las tumbas con el fin de "tamaño", que se define como la media geométrica del total de las piedras preciosas y el total de monedas. Ahora, si sólo nos fijamos en las 13 mayores tumbas se obtiene una correlación de 0,67. Esto se ve bueno para Angmar, después de todo. Si se incluyen los 25 tumbas, todos, pero los 4 más pequeños, todavía tenemos una correlación de 0,37.

correlation by number of tombs

Parece razonable para que busque sólo en grandes tumbas o excluir a los pequeños, pero no hay manera no-arbitrario para decidir dónde poner el cut-off. Y me parece mal para lanzar cualquier dato de distancia.

Mi pregunta: ¿hay una manera de hacer uso de todos los datos y calcular algún tipo de adecuadamente ponderado de correlación?

Mi intento de respuesta: Hay funciones para ponderado de la correlación que hay (he usado este) - pero lo que debería pesar? Si me pesa por el total de las gemas puedo obtener 0.28. Si yo peso total de monedas puedo obtener de 0.16. Tampoco parece razonable, pero lo ideal sería hacer uso de ambos. Si me pesa por el producto del total de las gemas y monedas total puedo obtener una correlación de 0,47. Es este un método legítimo?

Para ser claro - es que no quiero reunir la mayor correlación posible - he publicar los datos de cualquier manera. Sólo quiero conseguir este derecho.

Edit 1: no Hay ninguna razón especial para pensar que la relación debe ser lineal. El grado de correlación solución también podría tener sentido.

Edit 2: Nos hemos conformado en un rango de correlación, pero la ponderación de la fórmula todavía no está claro para mí. Sumando el tamaño de la muestra da un intuitivamente mal resultado en el caso de que un tamaño de la muestra es mucho más grande que el otro. Pero la media geométrica de los tamaños de la muestra también ofrece una forma intuitiva mal resultado para los grandes números. Una centena de millón de monedas no debe pesar un centenar de veces como mucho como un millón de millones de monedas. Lo que intuitivamente podría trabajar en un caso como el que sería el uso de la suma de los tamaños del intervalo de confianza (asumiendo una distribución binomial). O tal vez simplemente el recíproco de la suma de los recíprocos - como con parellel resistencias. Pero eso es algo que me acaba de sacar de mi trasero. No me siento en tierra firme, sin embargo, y más respuestas sería muy apreciado.

El conjunto de datos es el siguiente. Se basa en datos reales:

$$\begin{array}{c|c|c|c|c|c|c} \text{Tomb number} & \text{Sapphires} & \text{Total gems} & \text{Sapphire ratio} & \text{Gold coins} & \text{Total coins} & \text{Gold ratio}\\ \hline \text{Tomb 1} & 44 & 46 & 0.96 & 33 & 990 & 0.03\\ \text{Tomb 2} & 35 & 41 & 0.85 & 3 & 761 & 0.00\\ \text{Tomb 3} & 21 & 25 & 0.84 & 13 & 558 & 0.02\\ \text{Tomb 4} & 23 & 25 & 0.92 & 12 & 368 & 0.03\\ \text{Tomb 5} & 14 & 18 & 0.78 & 2 & 426 & 0.00\\ \text{Tomb 6} & 13 & 17 & 0.76 & 6 & 350 & 0.02\\ \text{Tomb 7} & 12 & 14 & 0.86 & 3 & 418 & 0.01\\ \text{Tomb 8} & 8 & 13 & 0.62 & 3 & 318 & 0.01\\ \text{Tomb 9} & 11 & 12 & 0.92 & 4 & 269 & 0.01\\ \text{Tomb 10} & 6 & 6 & 1.00 & 17 & 503 & 0.03\\ \text{Tomb 11} & 9 & 10 & 0.90 & 8 & 286 & 0.03\\ \text{Tomb 12} & 4 & 6 & 0.67 & 3 & 454 & 0.01\\ \text{Tomb 13} & 9 & 10 & 0.90 & 10 & 255 & 0.04\\ \text{Tomb 14} & 7 & 10 & 0.70 & 12 & 250 & 0.05\\ \text{Tomb 15} & 7 & 7 & 1.00 & 6 & 351 & 0.02\\ \text{Tomb 16} & 9 & 9 & 1.00 & 8 & 218 & 0.04\\ \text{Tomb 17} & 6 & 7 & 0.86 & 3 & 251 & 0.01\\ \text{Tomb 18} & 7 & 7 & 1.00 & 5 & 246 & 0.02\\ \text{Tomb 19} & 5 & 5 & 1.00 & 7 & 304 & 0.02\\ \text{Tomb 20} & 4 & 4 & 1.00 & 10 & 336 & 0.03\\ \text{Tomb 21} & 4 & 4 & 1.00 & 15 & 274 & 0.05\\ \text{Tomb 22} & 6 & 6 & 1.00 & 3 & 175 & 0.02\\ \text{Tomb 23} & 5 & 6 & 0.83 & 5 & 174 & 0.03\\ \text{Tomb 24} & 4 & 4 & 1.00 & 4 & 174 & 0.02\\ \text{Tomb 25} & 4 & 4 & 1.00 & 5 & 150 & 0.03\\ \text{Tomb 26} & 1 & 2 & 0.50 & 15 & 218 & 0.07\\ \text{Tomb 27} & 2 & 2 & 1.00 & 8 & 201 & 0.04\\ \text{Tomb 28} & 1 & 3 & 0.33 & 2 & 108 & 0.02\\ \text{Tomb 29} & 4 & 4 & 1.00 & 1 & 80 & 0.01\end{array}$$

2voto

user90997 Puntos 1

Para responder correctamente a esta pregunta interesante, hay tres aspectos a considerar. La primera se refiere a la oportunidad de ponderación. El problema de la exploración de la relación entre dos variables, tomando en cuenta una tercera variable de ponderación es común en la investigación estadística. Por ejemplo, podríamos estar interesados en evaluar la correlación entre la edad y el valor de un determinado sangre de parámetros en una muestra de sujetos, donde la sangre parámetro de valor en algunos de ellos representa el promedio de varias mediciones. En este caso podríamos elegir a dar más importancia a los valores que representan los promedios de las que representan mediciones, bajo la hipótesis de que los que están menos afectados por dentro de la variabilidad interindividual y que puede ser considerado más "fiable". El tamaño o el número de observaciones no es la única posible variable de ponderación: podemos decidir con el peso, es decir, de acuerdo con el momento de la observación (por ejemplo, si queremos dar más importancia a las observaciones recientes que las viejas porque son más relevantes para la situación actual), a la desviación estándar de los valores (como correctamente señaló en los comentarios), en las muestras con datos agregados, a la orden de preferencias cuando una de las variables es un grado, y así sucesivamente.

En el contexto descrito por el OP, teniendo en cuenta el tamaño de las discrepancias de un ponderado análisis es totalmente apropiada. La utilidad de esta opción es también resaltada por el tipo de variables consideradas en este caso (proporciones), ya que su precisión es bien conocido por ser altamente sensibles a los pequeños tamaños de muestra. Este concepto es un problema clásico en el cálculo de la potencia para los estudios sobre las proporciones, y podemos visualizar mejor por considerar que la tamaño de muestra necesario para estimar una proporción con un determinado nivel de confianza y la precisión es dado por la fórmula $\displaystyle N=\frac{Z_\alpha^2 p(1-p)}{e^2}$ donde $Z_\alpha$ es el valor de la distribución normal estándar correspondiente a nuestro predefinidos $\alpha$ de error (por ejemplo, Z=1.96 si queremos un 95% CI) $p$ que se espera que el "verdadero" proporción de la población, y $e$ es el nivel deseado de precisión. Como resultado de esta relación inversa, los pequeños tamaños de muestra puede estar asociada con niveles muy altos de la imprecisión. Por ejemplo, vamos a considerar para obtener una muestra de una población donde la verdadera subyacente proporción es $50\%$, y para observar una proporción $p$. La precisión de esta proporción observada para un $\alpha<0.05$ (es decir, el rango en el que $p$ se distribuye el 95% de las veces si puedo tomar infinitas muestras de ese tamaño), es $\pm5\%$ para una muestra de $385$ observaciones, pero cae a $\pm10\%$ para una muestra de $97$ observaciones y a $\pm20\%$ (inaceptable) para una muestra de $25$ observaciones. Estas consideraciones señalan que la precaución es necesaria cuando la gestión de proporciones dadas por los pequeños tamaños de muestra. En nuestro caso, este problema es más evidente para las gemas, ya que la mitad de las tumbas tiene un tamaño de $<10$. En estas condiciones, la ponderación es claramente recomendable.

El segundo problema es que tenemos que elegir el método de ponderación. Como se indicó anteriormente, la ponderación puede realizarse de acuerdo a diferentes variables, la elección depende de varios factores, incluyendo el propósito del estudio, la distribución subyacente, el tipo de agregación de datos, y así sucesivamente. En nuestro caso, estamos interesados en encontrar una variable de ponderación que los impactos sobre la fiabilidad de las proporciones observadas. De acuerdo a las anteriores consideraciones, y teniendo en cuenta el marcado impacto del tamaño de la muestra en proporción de precisión, el tamaño de cada observación (en nuestro caso, el número de gemas y que de monedas en cada tumba) es una elección apropiada. Ponderación por la desviación estándar, el cual es llevado a cabo correctamente, en muchos casos, de los datos agregados, es menos apropiado en este contexto, ya que aquí no tenemos datos agregados (también, aunque con datos agregados, no podríamos asumir que la distribución de los datos observados en las tumbas es normal). Para cuantificar el tamaño de cada tumba, la media geométrica del número de gemas y monedas es la opción óptima y ha de ser preferida a la media aritmética. De hecho, la media geométrica tiene mejor en cuenta que, para ser confiable, la observación debe tener una proporción exacta de ambas gemas y monedas, y que, por tanto, un equilibrio entre los dos elementos es ventajoso para el propósito de nuestro análisis. Para explicar mejor esta: si, por ejemplo, tenemos una tumba $i$ $2$ gemas y $198$ monedas, y otro sepulcro $j$ $100$ gemas y $100$ monedas, en general, la fiabilidad de la observación de $x_i,y_i$ (donde $x$ $y$ son las proporciones de las gemas y monedas en euros, respectivamente) es probablemente inferior a la de la observación $x_j,y_j$. La media geométrica de la captura de esta información y le da un tamaño de $19.9$ en el primer caso, y de la $100$ en el segundo caso. La media aritmética no capturar esta información y le da un tamaño de $100$ en ambos casos.

La tercera cuestión es que tenemos que identificar el método más apropiado para evaluar la correlación. En este sentido, la elección más importante a realizar es entre paramétricos y no paramétricos de medidas. Varias hipótesis que deben ser satisfechos antes de aplicar el clásico de correlación de Pearson, que es la típica prueba paramétrica: 1) las variables deben ser continuo; 2) las variables deben ser de aproximadamente una distribución normal; 3) los valores atípicos (observaciones que se encuentran en un anormal distancia de los otros datos) tienen que ser minimizados o eliminados; 4) los datos tienen que ser homoscedástica (es decir, las desviaciones a lo largo de la línea de ajuste tiene que ser, aproximadamente, a medida que nos movemos a lo largo de la línea; 5) una relación lineal debe ser plausible (esto es generalmente marcada por estimación visual de diagramas de dispersión). Podemos usar pruebas específicas para comprobar estas hipótesis, pero mirando los datos que se muestran en el OP parece muy poco probable que todos ellos son adecuadamente satisfechas. Esto sugiere que el test no paramétrico de medidas de correlación tiene que ser preferido en este caso.

La mayoría de los tipos utilizados de la paramétrica de correlación coeficiente de Spearman R, la Tau de Kendall, y Goodman-Kruskal Gamma. Todos estos métodos de superar los problemas relacionados con los supuestos de realización de las pruebas paramétricas, ya que sólo requiere que las observaciones individuales se pueden clasificar en dos serie ordenada. Spearman R puede ser interpretado como el coeficiente de correlación de Pearson calculado a partir de los rangos, por lo que proporciona un mensaje similar en términos de la variabilidad de la cuenta. La Tau de Kendall es equivalente a la de Spearman R en términos de poder estadístico, pero sus resultados tienen una interpretación diferente, ya que representa una probabilidad: en particular, es la diferencia entre la probabilidad de que, dado cualquier par de observaciones ( $x_i, y_i$ $x_j, y_j$ ), los rangos de las dos variables que están en el mismo orden (es decir, $x_i>x_j$ $y_i>y_j$ o$x_i<x_j$$y_i<y_j$). Goodman-Kruskal Gamma es básicamente igual a la tau de Kendall, con la única diferencia de que toma en cuenta los vínculos (observaciones con idéntico valor), y es preferible cuando los datos muestran varios casos de igualdad de valores.

En resumen, una opción óptima para este análisis podría ser un test no paramétrico de la prueba (por ejemplo, la Spearman R) ponderado por tamaño, donde el tamaño se calcula como la media geométrica del número de gemas y de monedas. No he probado si este análisis, aplicado a la tumba de datos, los rendimientos de una correlación significativa. Sin embargo, este análisis sin duda representa una muy "robusto".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X