4 votos

Ajuste para la dependencia del tamaño de la muestra de la varianza

En muchos resultados de encuestas que se publican para el público con respecto a la clasificación (ya sea la clasificación de escuelas, tasas de criminalidad en la ciudad, etc.), una de las muchas críticas a estos es que algunos con tamaños pequeños no se ajustan al tamaño de la muestra - por lo tanto, en tales resultados, las entidades con la clasificación más alta y más baja a menudo tienen un tamaño de muestra extremadamente pequeño.

Creo que es razonable decir que, típicamente, en una encuesta de este tipo, cuando se calculan las puntuaciones, a las unidades dentro de la entidad se les asigna una puntuación (digamos $N$ unidades con puntuaciones $X_i$), y la puntuación final que recibe una entidad es alguna especie de función lineal de los $X_i$s: $$\text{Puntuación de la Entidad} = \dfrac{\sum_{i=1}^{N}X_i}{N}\text{.}$$ Si asumimos que los $X_i$s son independientes e idénticamente distribuidos con varianza $\sigma^2$, terminas con la famosa ecuación para la varianza de un promedio: $\dfrac{\sigma^2}{N}$. Obviamente, a medida que $N$ aumenta, la varianza disminuye (manteniendo $\sigma^2$ constante). Cuando estás considerando datos en los que el tamaño $N$ difiere considerablemente entre diferentes entidades y estás intentando clasificar estas entidades entre sí, hay mucha más variación entre las escuelas con $N$ pequeños que con $N$ grandes.

Lo que me interesa saber es cómo las personas ajustan estos casos. Quizás esta pregunta es demasiado amplia para este sitio web, pero recuerdo que los profesores de estadística siempre señalan estos problemas, sin proporcionar ningún tipo de solución, más allá de tener cuidado con cómo se interpretan las estadísticas.

Además, por mucho que me guste estandarizar restando la media y dividiendo por alguna forma de desviación estándar, el problema con esto es que es extremadamente difícil de interpretar para una persona lega en la materia. Con mi posición actual en particular, es necesario que el público pueda replicar cualquier cálculo que hagamos siempre que sea posible, por lo que tenerlo accesible para personas legas es extremadamente importante. Sin embargo, agradezco todas las respuestas, técnicas o no, pero preferiría métodos accesibles para personas legas en estadística.

2 votos

+1 Esta es una pregunta importante que se repite con frecuencia, a menudo en forma de recomendaciones de clasificación. Recientemente, en un hilo de comentarios, hice un pequeño intento inicial de sugerir una estrategia fundamentada. Considera la información previa, las diferentes varianzas y una función de pérdida asociada con la decisión (que es una clasificación de las entidades en este caso).

2voto

md1337 Puntos 133

Enfoque bayesiano (empírico): Como menciona @whuber, creo que el enfoque más natural es un enfoque bayesiano, o posiblemente incluso un enfoque bayesiano empírico.

En particular, llamemos a los verdaderos puntajes de la entidad $e_j$ para $j=1,\dotsc,m$. Para estimar estos, tienes datos $X_{j1},\dotsc, X_{jn_j}$ para cada $j$. Nota que $n_j$ es diferente en cada caso.

Ahora, asume que tienes una prior $g$ para los $e_j$, es decir, $e_j \sim g$, entonces en lugar de estimar $e_j$ por la media muestral $\hat{e_j} = \frac{\sum_{i=1}^{n_j}X_{ij}} {n_j}$, podrías tomar la media posterior:

$$\tilde{e_j} = \mathbb E[e_j | X_{j1}, \dotsc, X_{jn_j}]$$

Este enfoque incluso funcionaría si no quieres poner una prior $g$ en estos puntajes; en su lugar podrías aprender la prior $g$ de tus datos. Esto se llama Bayes Empírico. Bradley Efron escribió recientemente un documento sobre cómo hacer esto "casi" no paramétricamente ("casi" porque no hace paramétricos reales, pero considera familias exponenciales flexibles con muchos parámetros). Para un enfoque más simple, David Robinson tiene una publicación de blog muy buena, donde profundiza en esta idea basada en el ejemplo de determinar los mejores bateadores (es decir, clasificar según los hits promedio que los jugadores obtienen).

Enfoque frecuentista ad-hoc: Otro enfoque que en mi opinión es mucho más ad-hoc, pero tiene la ventaja de ser más simple y posiblemente más fácil de explicar, es usar el límite inferior de un intervalo de confianza ($1-\alpha$) del parámetro para la clasificación de estos puntajes de entidad. Por ejemplo, si $\hat{\sigma}_j$ es la estimación de la desviación estándar basada en las $n_j$ muestras para el puntaje de entidad $j$, entonces podrías clasificar basándote en:

$$\bar{e_j} = \hat{e_j} - \frac{\hat{\sigma}_j}{\sqrt{n_j}}z_{1-\frac{\alpha}{2}}$$

Aquí $z_{1-\frac{\alpha}{2}}$ es el cuantil $1-\frac{\alpha}{2}$ de una distribución normal estándar (por supuesto, se podrían usar esquemas más elaborados). Esto tiene la ventaja de tener en cuenta el tamaño de la muestra directamente y ser simple de calcular; pero nuevamente creo que es bastante ad-hoc. [Hubo un blog post bastante famoso de alguien que usó tal enfoque para su empresa de internet; desafortunadamente no lo puedo encontrar en este momento. Quizás alguien que lea esto también pueda señalarme ese post].

0 votos

¿Tienes alguna recomendación de textos que cubran Bayes Empírico? Tengo Doing Bayesian Data Analysis de Kruschke y el texto de Gelman et al. pero estoy bastante seguro de que ninguno de ellos lo cubre.

0 votos

@Clarinetist, hmm.. Creo que "Large-Scale Inference: Empirical Bayes Methods" de Efron es tu mejor opción. Es un libro muy claramente escrito e iluminador. Un problema es que se enfoca principalmente en pruebas múltiples en lugar de en estimación, pero el primer capítulo trata sobre la estimación y, si mal no recuerdo, también tiene ese ejemplo del béisbol. Los artículos originales sobre "béisbol" también podrían ser útiles. Tal vez el siguiente video de Rafael Irizarry también te sea útil: youtube.com/watch?v=QINX3cI7qgk

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X