Soy un estudioso de las humanidades, tratando de no ser un completo idiota acerca de las estadísticas. Tengo un problema relevante para algunos filológica de artículos que estoy escribiendo. Para evitar la introducción de los oscuros tecnicismos de mi campo me voy a la refundición de esto como una simple ficción "arqueología" del problema.
En el Valle de las Brujas existen 29 de tumbas. Cada uno contiene una variedad de monedas y piedras preciosas. Algunas de las monedas son monedas de oro y algunas de las piedras preciosas son saphires.
Hay una hipótesis en el campo, el cual predice que la proporción de monedas de oro monedas total debe correlacionarse positivamente con la proporción de zafiros total de las piedras preciosas. Vamos a llamar a este Angmar de la predicción.
Me gustaría probar Angmar la predicción para el conjunto de datos a continuación. Si me quedo en un simple correlación de Pearson en todos los 29 puntos de datos puedo obtener una correlación muy cercano a cero (0.01). Esto se ve mal para Angmar - pero es toda la historia?
Algunos de los puntos de datos son claramente mejores que otros. Tumba 1 de 46 gemas y 990 monedas. Que parece ser mucho más sólido punto de datos de la Tumba de 29, que tiene sólo 4 gemas y 80 monedas. En el conjunto de datos a continuación he arreglado las tumbas con el fin de "tamaño", que se define como la media geométrica del total de las piedras preciosas y el total de monedas. Ahora, si sólo nos fijamos en las 13 mayores tumbas se obtiene una correlación de 0,67. Esto se ve bueno para Angmar, después de todo. Si se incluyen los 25 tumbas, todos, pero los 4 más pequeños, todavía tenemos una correlación de 0,37.
Parece razonable para que busque sólo en grandes tumbas o excluir a los pequeños, pero no hay manera no-arbitrario para decidir dónde poner el cut-off. Y me parece mal para lanzar cualquier dato de distancia.
Mi pregunta: ¿hay una manera de hacer uso de todos los datos y calcular algún tipo de adecuadamente ponderado de correlación?
Mi intento de respuesta: Hay funciones para ponderado de la correlación que hay (he usado este) - pero lo que debería pesar? Si me pesa por el total de las gemas puedo obtener 0.28. Si yo peso total de monedas puedo obtener de 0.16. Tampoco parece razonable, pero lo ideal sería hacer uso de ambos. Si me pesa por el producto del total de las gemas y monedas total puedo obtener una correlación de 0,47. Es este un método legítimo?
Para ser claro - es que no quiero reunir la mayor correlación posible - he publicar los datos de cualquier manera. Sólo quiero conseguir este derecho.
Edit 1: no Hay ninguna razón especial para pensar que la relación debe ser lineal. El grado de correlación solución también podría tener sentido.
Edit 2: Nos hemos conformado en un rango de correlación, pero la ponderación de la fórmula todavía no está claro para mí. Sumando el tamaño de la muestra da un intuitivamente mal resultado en el caso de que un tamaño de la muestra es mucho más grande que el otro. Pero la media geométrica de los tamaños de la muestra también ofrece una forma intuitiva mal resultado para los grandes números. Una centena de millón de monedas no debe pesar un centenar de veces como mucho como un millón de millones de monedas. Lo que intuitivamente podría trabajar en un caso como el que sería el uso de la suma de los tamaños del intervalo de confianza (asumiendo una distribución binomial). O tal vez simplemente el recíproco de la suma de los recíprocos - como con parellel resistencias. Pero eso es algo que me acaba de sacar de mi trasero. No me siento en tierra firme, sin embargo, y más respuestas sería muy apreciado.
El conjunto de datos es el siguiente. Se basa en datos reales:
$$\begin{array}{c|c|c|c|c|c|c} \text{Tomb number} & \text{Sapphires} & \text{Total gems} & \text{Sapphire ratio} & \text{Gold coins} & \text{Total coins} & \text{Gold ratio}\\ \hline \text{Tomb 1} & 44 & 46 & 0.96 & 33 & 990 & 0.03\\ \text{Tomb 2} & 35 & 41 & 0.85 & 3 & 761 & 0.00\\ \text{Tomb 3} & 21 & 25 & 0.84 & 13 & 558 & 0.02\\ \text{Tomb 4} & 23 & 25 & 0.92 & 12 & 368 & 0.03\\ \text{Tomb 5} & 14 & 18 & 0.78 & 2 & 426 & 0.00\\ \text{Tomb 6} & 13 & 17 & 0.76 & 6 & 350 & 0.02\\ \text{Tomb 7} & 12 & 14 & 0.86 & 3 & 418 & 0.01\\ \text{Tomb 8} & 8 & 13 & 0.62 & 3 & 318 & 0.01\\ \text{Tomb 9} & 11 & 12 & 0.92 & 4 & 269 & 0.01\\ \text{Tomb 10} & 6 & 6 & 1.00 & 17 & 503 & 0.03\\ \text{Tomb 11} & 9 & 10 & 0.90 & 8 & 286 & 0.03\\ \text{Tomb 12} & 4 & 6 & 0.67 & 3 & 454 & 0.01\\ \text{Tomb 13} & 9 & 10 & 0.90 & 10 & 255 & 0.04\\ \text{Tomb 14} & 7 & 10 & 0.70 & 12 & 250 & 0.05\\ \text{Tomb 15} & 7 & 7 & 1.00 & 6 & 351 & 0.02\\ \text{Tomb 16} & 9 & 9 & 1.00 & 8 & 218 & 0.04\\ \text{Tomb 17} & 6 & 7 & 0.86 & 3 & 251 & 0.01\\ \text{Tomb 18} & 7 & 7 & 1.00 & 5 & 246 & 0.02\\ \text{Tomb 19} & 5 & 5 & 1.00 & 7 & 304 & 0.02\\ \text{Tomb 20} & 4 & 4 & 1.00 & 10 & 336 & 0.03\\ \text{Tomb 21} & 4 & 4 & 1.00 & 15 & 274 & 0.05\\ \text{Tomb 22} & 6 & 6 & 1.00 & 3 & 175 & 0.02\\ \text{Tomb 23} & 5 & 6 & 0.83 & 5 & 174 & 0.03\\ \text{Tomb 24} & 4 & 4 & 1.00 & 4 & 174 & 0.02\\ \text{Tomb 25} & 4 & 4 & 1.00 & 5 & 150 & 0.03\\ \text{Tomb 26} & 1 & 2 & 0.50 & 15 & 218 & 0.07\\ \text{Tomb 27} & 2 & 2 & 1.00 & 8 & 201 & 0.04\\ \text{Tomb 28} & 1 & 3 & 0.33 & 2 & 108 & 0.02\\ \text{Tomb 29} & 4 & 4 & 1.00 & 1 & 80 & 0.01\end{array}$$