35 votos

¿Cómo se calcula una desviación estándar ponderada? ¿En Excel?

Por lo tanto, tengo un conjunto de datos de porcentajes como este:

100   /   10000   = 1% (0.01)
2     /     5     = 40% (0.4)
4     /     3     = 133% (1.3) 
1000  /   2000    = 50% (0.5)

Quiero encontrar la desviación estándar de los porcentajes, pero ponderada por su volumen de datos. Es decir, el primer y el último punto de datos deberían dominar el cálculo.

¿Cómo lo hago? ¿Y hay una forma sencilla de hacerlo en Excel?

0 votos

La fórmula con (M-1)/M es correcta. Si tienes alguna duda, compruébala poniendo todas las ponderaciones iguales a 1, y obtendrás la fórmula clásica para la estimación insesgada de la desviación típica con (N-1) en el denominador. Para quien lo tenga claro: inusual no significa incorrecto.

1 votos

La fórmula con (M-1)/M NO ES CORRECTA. Imagina que sumas un millón de puntos con pesos de una trillonésima. No cambia la respuesta en absoluto independientemente de cuáles sean esos pesos, pero su $(M-1)/M$ ¿el plazo se convierte en 1? No hay duda de que no. Si le importa que $(M-1)/M \neq 1$ Entonces también te importa que esto esté mal.

0 votos

El voto más alto es correcto. Por favor, compruebe itl.nist.gov/div898/software/dataplot/refman2/ch2/weightsd.pdf

47voto

Unsliced Puntos 5800

El fórmula de la desviación estándar ponderada es:

$$ \sqrt{ \frac{ \sum_{i=1}^N w_i (x_i - \bar{x}^*)^2 }{ \frac{(M-1)}{M} \sum_{i=1}^N w_i } },$$

donde

$N$ es el número de observaciones.

$M$ es el número de pesos no nulos.

$w_i$ son los pesos

$x_i$ son las observaciones.

$\bar{x}^*$ es la media ponderada.

Recuerda que la fórmula de la media ponderada es

$$\bar{x}^* = \frac{\sum_{i=1}^N w_i x_i}{\sum_{i=1}^N w_i}.$$

Utilice los pesos adecuados para obtener el resultado deseado. En su caso, le sugiero que utilice $\frac{\mbox{Number of cases in segment}}{\mbox{Total number of cases}}$ .

Para hacerlo en Excel, hay que calcular primero la media ponderada. A continuación, calcule la $(x_i - \bar{x}^*)^2$ en una columna separada. El resto debe ser muy fácil.

0 votos

Gracias por su publicación. Pero creo que puede haber un error en la expresión de la media ponderada. ¿No debería dividirse con la suma de los pesos?

3 votos

@Gilles, tienes razón. deps_stats, la fracción $(M-1)/M$ en la SD es inusual. Tiene una cita para esta fórmula o puede al menos explicar la razón para incluir ese término?

0 votos

la suma de todos los pesos es POR DEFINICIÓN = 1, así que ¿qué sentido tiene incluirlo en el término divisor?

23voto

Bennett McElwee Puntos 211

Las fórmulas están disponibles en varios lugares, incluyendo Wikipedia .

La clave está en darse cuenta de que depende de lo que signifiquen los pesos . En particular, obtendrá respuestas diferentes si las ponderaciones son frecuencias (es decir, sólo intenta evitar la suma total), si las ponderaciones son de hecho la varianza de cada medida, o si son sólo algunos valores externos que impone a sus datos.

En tu caso, superficialmente parece que los pesos son frecuencias pero no son . Usted genera sus datos a partir de frecuencias, pero no es una simple cuestión de tener 45 registros de 3 y 15 registros de 4 en su conjunto de datos. En su lugar, necesitas utilizar el último método. (En realidad, todo esto es una tontería usted realmente ¡necesita utilizar un modelo más sofisticado del proceso que está generando estos números! Al parecer, usted no tener algo que escupe números distribuidos normalmente, por lo que caracterizar el sistema con la desviación estándar no es lo correcto).

En cualquier caso, la fórmula de la varianza (a partir de la cual se calcula la desviación estándar de forma normal) con pesos de "fiabilidad" es

$${ \sum {w_i (x_i - x^*)^2} \over {\sum w_i - {\sum w_i^2 \over \sum w_i }} }$$

donde $x^* = \sum w_i x_i / \sum w_i$ es la media ponderada.

No tienes una estimación de los pesos, que supongo que quieres tomar para que sean proporcionales a la fiabilidad. Tomar los porcentajes de la forma en que lo estás haciendo va a hacer que el análisis sea complicado incluso si son generados por un proceso de Bernoulli, porque si obtienes una puntuación de 20 y 0, tienes un porcentaje infinito. La ponderación por la inversa del SEM es algo común y a veces óptimo. Quizás debas utilizar una estimación bayesiana o Intervalo de puntuación de Wilson .

2 votos

+1. La discusión de los diferentes significados de las ponderaciones era lo que buscaba en este hilo todo el tiempo. Es una contribución importante a todas las preguntas de este sitio sobre las estadísticas ponderadas. (Sin embargo, me preocupan un poco los comentarios entre paréntesis sobre las distribuciones normales y las desviaciones estándar, porque sugieren incorrectamente que las DS no tienen ninguna utilidad fuera de un modelo basado en la normalidad).

0 votos

@whuber - Bueno, ¡el teorema central del límite al rescate, por supuesto! Pero para lo que el OP estaba haciendo, tratar de caracterizar ese conjunto de números con una media y una desviación estándar parece excesivamente desaconsejable. Y en general, para muchos usos, la desviación estándar acaba por inducir una falsa sensación de comprensión. Por ejemplo, si la distribución es cualquier cosa menos normal (o una buena aproximación a ella), basarse en la desviación estándar le dará una mala idea de la forma de las colas, cuando son exactamente esas colas las que probablemente más le importan en las pruebas estadísticas.

0 votos

@RexKerr Difícilmente podemos culpar a la desviación estándar si la gente le da interpretaciones inmerecidas. Pero alejémonos de la normalidad y consideremos la clase mucho más amplia de distribuciones continuas, simétricas y unimodales con varianza finita (por ejemplo). Entonces, entre el 89 y el 100 por ciento de la distribución se encuentra dentro de dos desviaciones estándar. Esto suele ser bastante útil de saber (y el 95% se encuentra más o menos en el medio, por lo que nunca está a más de un 7% de distancia); con muchas distribuciones comunes, el aspecto de la simetría de caída no cambia mucho (por ejemplo, mire la exponencial) .... ctd

6voto

user35936 Puntos 21
=SQRT(SUM(G7:G16*(H7:H16-(SUMPRODUCT(G7:G16,H7:H16)/SUM(G7:G16)))^2)/
     ((COUNTIFS(G7:G16,"<>0")-1)/COUNTIFS(G7:G16,"<>0")*SUM(G7:G16)))

Columna G son pesos, Columna H son valores

0 votos

El uso de Ctrl+Mayús+Intro fue un problema para mí, pero esto parece funcionar de otra manera.

0 votos

¿Cómo se calcula el error estándar?

2voto

Aksakal Puntos 11351

Si tratamos las ponderaciones como probabilidades, entonces las construimos de la siguiente manera: $$p_i=\frac{v_i}{\sum_iv_i},$$ donde $v_i$ - volumen de datos.

A continuación, obviamente la media ponderada es $$\hat\mu=\sum_ip_ix_i,$$ y la varianza: $$\hat\sigma^2=\sum_ip_i(x_i-\hat\mu)^2$$

1voto

Ya sé que es tarde, pero en referencia a la insistencia de Whuber en una justificación autorizada del término (M-1)/M para una estimación no sesgada, tal vez la justificación del Prof. James Kirchner, descargada actualmente en http://seismo.berkeley.edu/~kirchner/Toolkits/Toolkit_12.pdf que hace referencia a

Bevington, P. R., Data Reduction and Error Analysis for the Physical Sciences, 336 pp.,
McGraw-Hill, 1969

¿lo hará?

El profesor Kirchner distingue entre

  1. "Caso I" en el que algunos puntos son más importantes que otros (de ahí la ponderación) pero se supone que las incertidumbres asociadas a cada punto son las mismas
  2. "Caso II" en el que los puntos son igualmente importantes pero las incertidumbres asociadas a cada punto no son las mismas.

Para el comentario de FabioSpaghetti de ayer, el documento enlazado anteriormente también muestra cómo calcular el error estándar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X