En las instituciones académicas dedicadas a la enseñanza, a menudo utilizamos a nuestros alumnos actuales que toman una clase específica, la población accesible, como muestra aleatoria cuando nuestra muestra real incluye a todos los alumnos que tomarán esta clase en el futuro. ¿Alguien ha estudiado lo razonable que es esto? Gracias.
Respuestas
¿Demasiados anuncios?A primera vista, se trata de una muestra de conveniencia. El muestreo real implica la aleatorización, y no creo que ninguna universidad permita poner a los estudiantes al azar en las secciones. Sin duda, hay un problema de autoselección que produce muestras sesgadas con prevalencias sesgadas de estudiantes con diferentes antecedentes y características. Sólo los estudiantes más responsables tomarán las clases de las 8:00 de la mañana, y los que necesitan trabajar durante el día pueden preferir las clases nocturnas, etc.
Se trata de una cuestión importante, explicitada por Deming y Stephan (1941), que utilizaron por primera vez la palabra "superpoblación" para describir el enfoque con ese nombre: suponer que la población actual es en sí misma una muestra de una población mayor, hipotética. El concepto está implícito también en Cochran (1939). Véase Stanek, 2000b, donde encontré por primera vez la referencia al artículo de Cochran.
Si los alumnos de cada año se extraen de esta superpoblación y la enseñanza sigue siendo la misma, entonces considere que la población disponible es una muestra aleatoria simple y utilice los análisis adecuados basados en el diseño de la encuesta (Deming, 1966, pp 247-261). También existen soluciones de superpoblación basadas en modelos, por ejemplo, que las observaciones se extraigan de distribuciones normales, pero se trata de supuestos más fuertes. También evitaría la inferencia basada en los cocientes de probabilidad.
Sin embargo, si hay diferencias aleatorias o sistemáticas (por ejemplo, la tendencia temporal) entre los estudiantes de cada año, entonces necesitaría varios años de datos para estimar estos efectos e incorporarlos a sus análisis.
Si el contenido de la enseñanza (o el instructor) también cambia de un año a otro, entonces tiene una fuente adicional de diferencia que será difícil de predecir.
En resumen: puede analizar la clase como si representara las clases futuras, pero debe matizar sus conclusiones indicando los problemas de esta suposición.
He respondido a preguntas relacionadas en otra parte de SO. Véase, por ejemplo
Aplicación de la estadística inferencial a los datos censales
Justificación del uso de la corrección de la población finita
¿Ajuste de cualquier análisis de potencia con FPC?
Para algunas otras referencias sobre el enfoque de la superpoblación, véase: Korn y Graubard, 1999,p.227); Gelman, 2009; y un par de notas inéditas de Ed Stanek (2000 a,b). El primer documento contiene un conjunto incompleto de referencias.
Referencias
Cochran, W. G. (1939). "The use of analysis of variance in enumeration by Journal of the American Statistical Association,34:492-51
Cochran, W. G. (1977). Sampling techniques (3rd Ed.). New York: Wiley.
Deming, W Edwards, y Frederick F Stephan. (1941). Sobre la interpretación de los censos como muestras. Journal of the American Statistical Association 36, nº 213: 45-49
Deming, W. E. (1966). Some theory of sampling. New York: Dover Publications.
Andrew Gelman, 2009. ¿En qué difiere el análisis estadístico cuando se analiza toda la población en lugar de una muestra? http://andrewgelman.com/2009/07/03/how_does_statis/
Korn, E. L., y Graubard, B. I. (1999). Analysis of health surveys (Wiley series in probability and statistics). Nueva York: Wiley.
Ed Stanek (2000a) Ideas sobre modelos de superpoblación e inferencia http://www.umass.edu/cluster/ed/unpublication/yr2000/c00ed62.PDF
Ed Stanek (2000b) Superpoblaciones y modelos de superpoblación http://www.umass.edu/cluster/ed/unpublication/yr2000/c00ed64v1.PDF