27 votos

Varianza ponderada, una vez más

La varianza ponderada no sesgada ya se abordó aquí y en otro lugar pero todavía parece haber una sorprendente cantidad de confusión. Parece haber un consenso hacia la fórmula presentada en el primer enlace, así como en el Artículo de Wikipedia . Esto también se parece a la fórmula utilizada por R, Mathematica y GSL (pero no MATLAB). Sin embargo, el artículo de Wikipedia también contiene la siguiente línea que parece una gran verificación de cordura para una implementación de la varianza ponderada:

Por ejemplo, si los valores {2,2,4,5,5,5} se extraen de la misma distribución, entonces podemos tratar este conjunto como una muestra no ponderada, o podemos tratarlo como la muestra ponderada {2,4,5} con las correspondientes pesos {2,1,3}, y deberíamos obtener los mismos resultados.

Mis cálculos dan el valor de 2,1667 para la varianza de los valores originales y 2,9545 para la varianza ponderada. ¿Debo esperar que sean iguales? ¿Por qué o por qué no?

7 votos

esta pregunta no se refiere realmente a la aplicación, sino a la teoría que la sustenta

23voto

Jon Smock Puntos 3921

Sí, es de esperar que ambos ejemplos (no ponderados frente a ponderados) den los mismos resultados.

He implementado los dos algoritmos del artículo de la Wikipedia.

Este funciona:

Si todos los xixi se extraen de la misma distribución y los pesos enteros wiwi indican la frecuencia de aparición en la muestra, entonces el estimador insesgado de la varianza poblacional ponderada viene dado por:

s2 =1V11Ni=1wi(xiμ)2,s2 =1V11Ni=1wi(xiμ)2,

Sin embargo este (usando pesos fraccionarios) no me funciona:

Si cada xixi se extrae de una distribución gaussiana con varianza 1/wi1/wi el estimador insesgado de una varianza poblacional ponderada viene dado por:

s2 =V1V21V2Ni=1wi(xiμ)2s2 =V1V21V2Ni=1wi(xiμ)2

Todavía estoy investigando las razones por las que la segunda ecuación no funciona como se pretende.

/EDIT: Encontré la razón por la que la segunda ecuación no funcionaba como pensaba: puedes usar la segunda ecuación sólo si tienes pesos normalizados o pesos de varianza ("fiabilidad"), y NO es insesgada, porque si no usas pesos de "repetición" (contando el número de veces que una observación fue observada y por lo tanto debe ser repetida en tus operaciones matemáticas), pierdes la capacidad de contar el número total de observaciones, y por lo tanto no puedes usar un factor de corrección.

Así que esto explica la diferencia en sus resultados utilizando la varianza ponderada y no ponderada: su cálculo está sesgado.

Por lo tanto, si quieres tener una varianza ponderada no sesgada, utiliza sólo las ponderaciones "repetidas" y usa la primera ecuación que he publicado arriba. Si eso no es posible, bueno, no se puede evitar.

Para más detalles teóricos, aquí hay otro post sobre la covarianza ponderada insesgada, con una referencia sobre por qué no podemos insesgar con pesos de tipo frecuencia/fiabilidad y una implementación en python.

/EDIT unos años más tarde: sigue habiendo cierta confusión en cuanto a por qué no podemos desprejuiciar las ponderaciones de frecuencia/fiabilidad.

En primer lugar, para aclarar, la diferencia entre los pesos de frecuencia/fiabilidad y los pesos de repetición/ocurrencia es que las ponderaciones de frecuencia/fiabilidad están normalizadas, mientras que las ponderaciones de repetición/ocurrencias no lo están Así, se puede obtener el número total de ocurrencias sumando sólo las segundas, pero no las primeras. Esto es necesario para la imparcialidad porque, de lo contrario, se pierde la capacidad de conocer lo que yo llamaría la magnitud estadística, lo que otros llaman polarización .

De hecho, es como cualquier otra cosa en estadística: si digo que el 10% de mi subpoblación tiene X enfermedad, ¿qué significa para la población en general? Bueno, depende de cuál sea mi subpoblación: si son sólo 100 personas, entonces mi cifra del 10% no significa mucho. Pero si es un millón de personas, entonces puede representar fielmente a toda la población. Aquí es lo mismo, si no conocemos el total de N, no podemos saber hasta qué punto nuestra métrica es representativa de toda la población, y por tanto no podemos desprejuiciar. La insensibilidad es exactamente el proceso de generalización a la población más amplia.

0 votos

Después de leer y pensar mucho en esto, sigo sin conseguir un significado intuitivo o un ejemplo del término "pesos de fiabilidad". ¿Podría explicarlo un poco más?

0 votos

@Peter los pesos de fiabilidad son pesos normalizados, por ejemplo, delimitados entre 0 y 1 o -1 y 1. Representan una frecuencia (por ejemplo, 0,1 significa que esta muestra se vio el 10% de las veces en comparación con todas las demás muestras). No he inventado el término, se puede encontrar en publicaciones. Para los pesos de repetición es lo contrario, cada peso representa el número de ocurrencias, la cardinalidad (por ejemplo, 10 si la muestra fue observada 10 veces).

0 votos

Esto es confuso porque lo que se llama pesos repetidos suele llamarse también pesos de frecuencia pero creo que tengo la diferencia. Depende de la normalización, ¿no?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X