En muchos resultados de encuestas que se publican para el público con respecto a la clasificación (ya sea la clasificación de escuelas, tasas de criminalidad en la ciudad, etc.), una de las muchas críticas a estos es que algunos con tamaños pequeños no se ajustan al tamaño de la muestra - por lo tanto, en tales resultados, las entidades con la clasificación más alta y más baja a menudo tienen un tamaño de muestra extremadamente pequeño.
Creo que es razonable decir que, típicamente, en una encuesta de este tipo, cuando se calculan las puntuaciones, a las unidades dentro de la entidad se les asigna una puntuación (digamos $N$ unidades con puntuaciones $X_i$), y la puntuación final que recibe una entidad es alguna especie de función lineal de los $X_i$s: $$\text{Puntuación de la Entidad} = \dfrac{\sum_{i=1}^{N}X_i}{N}\text{.}$$ Si asumimos que los $X_i$s son independientes e idénticamente distribuidos con varianza $\sigma^2$, terminas con la famosa ecuación para la varianza de un promedio: $\dfrac{\sigma^2}{N}$. Obviamente, a medida que $N$ aumenta, la varianza disminuye (manteniendo $\sigma^2$ constante). Cuando estás considerando datos en los que el tamaño $N$ difiere considerablemente entre diferentes entidades y estás intentando clasificar estas entidades entre sí, hay mucha más variación entre las escuelas con $N$ pequeños que con $N$ grandes.
Lo que me interesa saber es cómo las personas ajustan estos casos. Quizás esta pregunta es demasiado amplia para este sitio web, pero recuerdo que los profesores de estadística siempre señalan estos problemas, sin proporcionar ningún tipo de solución, más allá de tener cuidado con cómo se interpretan las estadísticas.
Además, por mucho que me guste estandarizar restando la media y dividiendo por alguna forma de desviación estándar, el problema con esto es que es extremadamente difícil de interpretar para una persona lega en la materia. Con mi posición actual en particular, es necesario que el público pueda replicar cualquier cálculo que hagamos siempre que sea posible, por lo que tenerlo accesible para personas legas es extremadamente importante. Sin embargo, agradezco todas las respuestas, técnicas o no, pero preferiría métodos accesibles para personas legas en estadística.
2 votos
+1 Esta es una pregunta importante que se repite con frecuencia, a menudo en forma de recomendaciones de clasificación. Recientemente, en un hilo de comentarios, hice un pequeño intento inicial de sugerir una estrategia fundamentada. Considera la información previa, las diferentes varianzas y una función de pérdida asociada con la decisión (que es una clasificación de las entidades en este caso).