Sí, es de esperar que ambos ejemplos (no ponderados frente a ponderados) den los mismos resultados.
He implementado los dos algoritmos del artículo de la Wikipedia.
Este funciona:
Si todos los xixi se extraen de la misma distribución y los pesos enteros wiwi indican la frecuencia de aparición en la muestra, entonces el estimador insesgado de la varianza poblacional ponderada viene dado por:
s2 =1V1−1∑Ni=1wi(xi−μ∗)2,s2 =1V1−1∑Ni=1wi(xi−μ∗)2,
Sin embargo este (usando pesos fraccionarios) no me funciona:
Si cada xixi se extrae de una distribución gaussiana con varianza 1/wi1/wi el estimador insesgado de una varianza poblacional ponderada viene dado por:
s2 =V1V21−V2∑Ni=1wi(xi−μ∗)2s2 =V1V21−V2∑Ni=1wi(xi−μ∗)2
Todavía estoy investigando las razones por las que la segunda ecuación no funciona como se pretende.
/EDIT: Encontré la razón por la que la segunda ecuación no funcionaba como pensaba: puedes usar la segunda ecuación sólo si tienes pesos normalizados o pesos de varianza ("fiabilidad"), y NO es insesgada, porque si no usas pesos de "repetición" (contando el número de veces que una observación fue observada y por lo tanto debe ser repetida en tus operaciones matemáticas), pierdes la capacidad de contar el número total de observaciones, y por lo tanto no puedes usar un factor de corrección.
Así que esto explica la diferencia en sus resultados utilizando la varianza ponderada y no ponderada: su cálculo está sesgado.
Por lo tanto, si quieres tener una varianza ponderada no sesgada, utiliza sólo las ponderaciones "repetidas" y usa la primera ecuación que he publicado arriba. Si eso no es posible, bueno, no se puede evitar.
Para más detalles teóricos, aquí hay otro post sobre la covarianza ponderada insesgada, con una referencia sobre por qué no podemos insesgar con pesos de tipo frecuencia/fiabilidad y una implementación en python.
/EDIT unos años más tarde: sigue habiendo cierta confusión en cuanto a por qué no podemos desprejuiciar las ponderaciones de frecuencia/fiabilidad.
En primer lugar, para aclarar, la diferencia entre los pesos de frecuencia/fiabilidad y los pesos de repetición/ocurrencia es que las ponderaciones de frecuencia/fiabilidad están normalizadas, mientras que las ponderaciones de repetición/ocurrencias no lo están Así, se puede obtener el número total de ocurrencias sumando sólo las segundas, pero no las primeras. Esto es necesario para la imparcialidad porque, de lo contrario, se pierde la capacidad de conocer lo que yo llamaría la magnitud estadística, lo que otros llaman polarización .
De hecho, es como cualquier otra cosa en estadística: si digo que el 10% de mi subpoblación tiene X enfermedad, ¿qué significa para la población en general? Bueno, depende de cuál sea mi subpoblación: si son sólo 100 personas, entonces mi cifra del 10% no significa mucho. Pero si es un millón de personas, entonces puede representar fielmente a toda la población. Aquí es lo mismo, si no conocemos el total de N, no podemos saber hasta qué punto nuestra métrica es representativa de toda la población, y por tanto no podemos desprejuiciar. La insensibilidad es exactamente el proceso de generalización a la población más amplia.
7 votos
esta pregunta no se refiere realmente a la aplicación, sino a la teoría que la sustenta