6 votos

¿Cómo calcular la media y la desviación estándar de una variable de conteo cuando los datos en bruto están basados en categorías de frecuencia?

Pregunté a 312 personas cuántas veces visitaban su supermercado local favorito en un mes

Los resultados son los siguientes:

  • 5% no visitaron en absoluto
  • 7% visitaron una vez al mes
  • 33% visitaron dos veces al mes
  • 22% visitaron tres veces al mes
  • 15% visitaron cuatro veces al mes
  • 18% visitaron cinco o más veces al mes

En ausencia del número real de visitas (solo tengo porcentajes de clientes como los anteriores), ¿cómo calculas la media y la desviación estándar con fines de informe?

3voto

jldugger Puntos 7490

Necesitas ser creativo, porque estos datos son coherentes con cualquier media que exceda $0 \times .05 + 1 \times .07 + \cdots + 5 \times .18$ = $2.89$ y cualquier desviación estándar que exceda $1.38$ (que se obtienen asumiendo que nadie visitó más de cinco veces al mes).

Para fines de informe, simplemente tabula o grafica los datos en bruto:

Gráfico de barras

Si necesitas un resumen de la ubicación y dispersión, utiliza medidas alternativas que puedan encontrarse de forma única a partir de estos datos. La mediana está entre 2 y 3, porque el 45% visitó 2 veces o menos y el 67% visitó 3 veces o menos. Puede simplemente interpolar linealmente y reportar una mediana de 2.3 visitas al mes. Para la dispersión, utiliza (por ejemplo) un rango intercuartílico, también calculado con interpolación lineal. Encuentro que Q1 es 1.4 y Q3 es 3.3, para un RIC de 1.9.

Para ir más allá, es necesario ajustar los datos con una distribución, lo cual requiere suposiciones y, por lo tanto, no es simplemente un informe. Pero puede ser útil. Sin embargo, estos datos son esquivos: no encajarán en modelos estándar como Binomial o Poisson. (Recomiendo no intentar ajustar versiones discretizadas de distribuciones continuas, como Lognormal, porque es difícil encontrar alguna razón por la que deberían encajar: no forman bases informativas para la comparación. Además, dado que aquí solo hay seis valores, sería casi inútil usar más de un parámetro en la modelización: dos o más parámetros dan demasiada flexibilidad).

Como ejemplo de la comprensión que podría ofrecer un ajuste distribucional simple, supongamos que las visitas se realizan aleatoriamente a lo largo del tiempo por individuos y cada individuo tiene la misma probabilidad (por unidad de tiempo) de visitar. Este es potencialmente un marco útil e interesante con el que se pueden comparar estos datos. Conduce a una distribución de Poisson. El mejor ajuste (en un sentido de chi-cuadrado) se logra con una intensidad de 3.185 al mes; esto también es la varianza (de donde la desviación estándar es $\sqrt{3.185}$ = $1.8$).

Datos y ajuste de Poisson

Este no es un buen ajuste (como mostrará una prueba de chi-cuadrado, pero el ojo lo ve claramente): hay demasiadas personas reportando 2 visitas y muy pocas reportando 1 visita. Eso quizás sea lo más interesante de este análisis. Podrías anunciar estos resultados de la siguiente manera:

La mediana del número de visitas mensuales entre los encuestados es de 2.3 (con un RIC de 1.9). Los datos se alejan significativamente de una distribución de Poisson (mejor ajuste) con una media de 3.18 visitas al mes en que 19 personas menos de las esperadas reportan una visita y 37 personas más de las esperadas reportan dos visitas.

Por cierto, un ajuste de Poisson de manera sugestiva llena la cola superior de "5 o más visitas," proporcionando hipótesis cuantitativas que podrían ser probadas en encuestas posteriores:

Ajuste de Poisson

Otras distribuciones darían diferentes extrapolaciones en este rango superior.

1voto

James Puntos 1294

Definitivamente debes asociar un valor numérico a la clase "visitado cinco o más veces al mes".

Por cierto, calcularía la media y la desviación estándar de la manera habitual. De hecho, $x_i$ son tus valores y $p_i$ son sus frecuencias empíricas estimadas en la muestra. En tu caso $$x_0=0 \ x_1=1 \ x_2=2 \ x_3=3 \ x_4=4 \ x_5=6$$ (deberías decidir $x_5$) $$p_0=0.05 \ p_1=0.07 \ p_2=0.33 \ p_3=0.22 \ p_4=0.15 \ p_5=0.18 $$
Así que $$\bar{x} = \sum_{i=0}^{5}x_i p_i$$ y $$\sigma=\sqrt{\sum_{i=0}^{5}(x_i - \bar{x})^2 p_i}$$ Podría ser interesante eliminar $x_0$ y $p_0$ y reescalar todos los $p_i$ para que su suma sea 1. De esta manera, puedes calcular el número promedio de visitas al supermercado para una persona que visita el supermercado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X