Tengo varios conjuntos de datos, por desgracia, los datos vienen a mí en un "resumen" de este formulario. Mi trabajo es consolidar las diversas fuentes de datos en un resumen general. Actualmente estoy usando la mediana para resumir los datos, pero no sé si esto es estadísticamente sonido. He aquí una descripción de mi problema:
Hay $N_P$ muestras, cada uno con diferentes tamaños de muestra, pero todo desde una única población. Ni el tamaño de la muestra o el estándar de variación son conocidos. Cada muestra puede ser dividido en $N_Q$ distintos grupos (o cualidades). A partir de cada muestra, el único dato que se conoce es qué por ciento de la muestra se enmarca dentro de un grupo (o categoría). Por ejemplo, la población $A$ contiene, $x\%$ de $a$, $y\%$ de $b$$z\%$$c$.
Las diferentes muestras no son disjuntos, por lo que un solo elemento puede estar en varias de las muestras; pero no sé cuánto de superposición que existe. Hay 5-8 diferentes muestras con 5-7 categorías. Un ejemplo (más pequeño) de la tabla es la siguiente.
cat. a cat. b cat. c
sample A 47.34% 30.05% 11.92%
sample B 41.60% 29.90% 11.90%
sample c 47.74% 29.67% 12.69%
-------- ------ ------ ------
median 47.34% 29.90% 11.92%
Ahora es estadísticamente sonido para crear este "mediana" en resumen, lo que lleva a cada grupo a partir de las diferentes muestras y encuentra la mediana? Tal vez yo debería ser el uso de la media? El problema que estoy viendo es la "mediana de la muestra" generalmente sumas a menos de 100%, aunque los porcentajes de cada muestra se suma el 100%. Debe este asunto?
Sample sizes: 100k - 100m
Population size: ~1 billion