Enseño estadísticas universitarias y cada año un estudiante pregunta "No puedes tener 1.5 hijos" (la media para el conjunto de datos). Me confundo cada vez para crear una respuesta coherente. He intentado: "ninguna persona puede, pero en general la muestra sí puede"; he intentado hacer histogramas y graficarlo, etc., pero aún confunde a algunos estudiantes ... ¿alguna idea de cómo hacer el punto más claro?
Respuestas
¿Demasiados anuncios?La explicación más simple y concisa del promedio es una cantidad que "equilibra la balanza".
En otras palabras, si la muestra observada fueran pesos físicos tomados a lo largo de una línea numérica simétrica, el promedio es un punto que literalmente equilibraría esa línea correctamente.
Puedes hacer muchos otros buenos argumentos, como que tiene propiedades matemáticas convenientes, que es una estadística precisa y bien comportada en la mayoría de los diseños experimentales, y así sucesivamente. Pero estos son entendimientos basados en la práctica y no ejemplos motivadores para los estudiantes.
Las estadísticas en general han sufrido porque los estudiantes no piensan profundamente en su intuición antes de implementar los métodos. Por lo tanto, sería bueno que los estudiantes luchen con ejemplos. No necesitamos ser tan perspicaces como Fisher para hacer buenas estadísticas, pero las estadísticas tampoco son un deporte de espectadores: muchos estudiantes van a autoselccionarse en otras disciplinas a medida que se adentren en los detalles.
Haces un punto válido sobre la práctica común de tomar promedios de valores que no siempre son números naturalmente ocurridos. Los promedios son una herramienta útil para resumir datos y comparar desempeños en varios campos, y a menudo implican redondear o interpretar valores de manera significativa.
En el contexto de los estudiantes universitarios y sus promedios de calificaciones (GPA), es cierto que los valores de GPA típicamente incluyen decimales, aunque las calificaciones individuales de los cursos suelen ser números enteros. El sistema de GPA utiliza promedios ponderados para proporcionar una reflexión más detallada del desempeño general de un estudiante.
La media es una fracción
El valor medio consiste en una fracción de la suma de las observaciones individuales. Cuando se expresa como decimal, una fracción de la suma de las observaciones individuales puede mantener las mismas unidades que las observaciones individuales sin reflejar su limitación del mundo real (indivisibilidad).
$ (1 \text{ manzana}+2 \text{ manzanas}) \div 2= \frac{1 \text{ manzana}+2 \text{ manzanas}}{2} = \frac{3 \text{ manzanas}}{2} = 1.5 \text{ manzanas} $
Restricción de la media
Se puede imponer una restricción del mundo real según la cual la solución debe ser un número entero, $\mathbb W$ (o números enteros). La solución restringida se puede obtener a partir de la media del conjunto de datos, $\bar x$.
$ f(\bar x)= \begin{cases} \bar x&\text{si }\, \bar x \in \mathbb W\\ a \text{ o } b&\text{si }\, \bar x \text{ es un decimal}\\ \end{cases} $
donde $a=floor(\bar x)$, $b=ceil(\bar x)$
Si $\bar x$ es un decimal, la respuesta restringida se convierte en: "En promedio, las personas tienen $a$ o $b$ hijos". Las observaciones individuales en el conjunto de datos pueden o no corresponder a $a$ o $b$.
Restricción de las predicciones a partir de la media
En un contexto diferente, asumiendo que $\bar x=1.136 \text{ niños/mujer}$, podrías simular la extracción de grupos de $10 \text{ mujeres}$ de una distribución de Poisson con $=1.136$. Podrías derivar una predicción para el $\text{# de niños}$ correspondiente a $\text{10 mujeres}$ extraídas de la distribución directamente de $\bar x$.
$ \text{predicción}_{\text{media}} = \frac{1.136 \text{ niños}}{\require{cancel} \cancel{\text{mujer}}} \cdot 10 \require{cancel} \cancel{\text{mujeres}} = 11.36 \text{ niños} $
Tu predicción nunca será correcta, porque las mujeres producen niños enteros (no fracciones de niños). Como antes, puedes agregar una restricción del mundo real (la predicción o predicciones deben ser $\mathbb W$) para que tu predicción sea relevante.
$ \text{predicción relevante}= \begin{cases} \text{predicción}_{\text{media}}&\text{si }\, \text{predicción}_{\text{media}} \in \mathbb W\\ A \text{ o } B&\text{si }\, \text{predicción}_{\text{media}} \text{ es un decimal}\\ \end{cases} $
donde $A=floor(\text{predicción}_{\text{media}})$, $B=ceil(\text{predicción}_{\text{media}})$
Suponiendo una recompensa de 50 puntos si la predicción es correcta, y una penalización de puntos correspondiente al valor absoluto de la diferencia si la predicción es incorrecta, se pueden obtener tendencias de puntos acumulativos a lo largo de 250 iteraciones de simulación.
Probablemente no están realmente confundidos
Dices que esto es estadística a nivel de pregrado? Este tipo de pregunta pertenece a la escuela primaria. Para ser universitarios, claramente deben entenderlo.
Considera la posibilidad de que te estén tomando el pelo. La razón por la que esto surge cada año es que es ligeramente divertido, así que definitivamente puedes esperar que alguien haga la broma y piense que está siendo original. Si luego comienzas a titubear y te distraes de lo que se supone que debes enseñar, la clase encontrará eso aún más gracioso, y es muy probable que algunos bromistas del grupo te sigan provocando más.
Sugiero no caer en la trampa. La respuesta, como has dicho, es "Claro, una sola persona no puede, pero en la muestra (o entre varias personas), eso puede ser la media". Y luego sigue adelante.
Si siguen preguntando, diles que les puedes prestar un libro de matemáticas de la escuela primaria para ayudarles a entender fracciones, con bonitas imágenes. Devuélveles la broma. Y luego sigue adelante de verdad.