Voy a dar clases de estadística como ayudante de cátedra durante la segunda mitad de este semestre a estudiantes de grado orientados a la informática. La mayoría de los estudiantes que tomaron la clase no tienen ningún incentivo para aprender la asignatura y sólo la tomaron por requisitos de la carrera. Quiero hacer que la asignatura sea interesante y útil, no sólo una clase que aprenden para sacar un notable para aprobar.
Como estudiante de doctorado de matemáticas puras, sabía poco de la vida real aplicada. Quiero pedir algunas aplicaciones en la vida real de la estadística de grado. Los ejemplos que busco son algunos (en espíritu) como:
1) Mostrar el teorema del límite central es útil para ciertos datos de muestras grandes.
2) Proporcione un contraejemplo de que el teorema del límite central no es aplicable (digamos, los que siguen la distribución de Cauchy).
3) Mostrar cómo funcionan las pruebas de hipótesis en ejemplos famosos de la vida real utilizando la prueba Z, la prueba t o algo así.
4) Mostrar cómo un ajuste excesivo o una hipótesis inicial errónea pueden dar resultados equivocados.
5) Mostrar cómo funcionaron el valor p y el intervalo de confianza en casos reales (bien conocidos) y dónde no funcionan tan bien.
6) De forma similar, errores de tipo I, tipo II, potencia estadística, nivel de rechazo $\alpha$ etc.
Mi problema es que si bien tengo muchos ejemplos del lado de la probabilidad (lanzamiento de monedas, lanzamiento de dados, ruina del jugador, martingalas, paseo aleatorio, la paradoja de los tres prisioneros, el problema de Monty Hall, métodos de probabilidad en el diseño de algoritmos, etc), no conozco tantos ejemplos canónicos del lado de la estadística. Me refiero a ejemplos serios e interesantes que tengan algún valor pedagógico, y que no sean extremadamente artificiales que parezcan muy alejados de la vida real. No quiero dar a los estudiantes la falsa impresión de que la prueba Z y la prueba t lo son todo. Pero debido a mi formación matemática pura no conozco suficientes ejemplos para que la clase sea interesante y útil para ellos. Así que estoy buscando algo de ayuda.
El nivel de mi alumno está en torno al cálculo I y al cálculo II. Ellos no puede incluso muestran que la varianza de la normal estándar es 1 por definición, ya que no saben evaluar el núcleo gaussiano. Así que cualquier cosa ligeramente teórica o computacional (como la distribución hipergeométrica, la ley arcsin en el paseo aleatorio 1D) no va a funcionar. Quiero mostrar algunos ejemplos que puedan entender no sólo "cómo", sino también "por qué". De lo contrario, no estoy seguro de que vaya a demostrar lo que he dicho mediante la intimidación.
2 votos
Tal y como está planteada, parece un poco amplia y poco centrada: "algunas aplicaciones reales de la estadística de grado" no es especialmente adecuada para el formato de la GC. En el mejor de los casos, es una pregunta de "lista grande". Si (3) por sí sola puede ser demasiado amplia y desenfocada, pero podría ser un éxito con un poco de reformulación, y (4) podría mantenerse por sí sola lo suficientemente bien con un poco más de enfoque. (1) no puede tener éxito en ningún caso, ya que el teorema del límite central realmente no nos dice nada sobre lo que ocurre en $n=100$ o $n=1000$ o $n=10^{10}$ . No es un resultado de muestra fina.
3 votos
El teorema de Berry-Esseen (que supongo que no se enseña en ese nivel) podría se utilice con muestras finitas. De manera informal, por supuesto, las medias muestrales de determinadas distribuciones se vuelven cada vez más normales a medida que aumenta el tamaño de las muestras, pero no podemos decir realmente "eso es el teorema del límite central", ya que el CLT no dice nada al respecto. Además, para mostrar que las cosas se acercan cada vez más a una distribución normal, se necesita una secuencia de tamaños de muestra. En la recopilación de datos del mundo real eso es común sólo en los datos recogidos a lo largo del tiempo (así que si estás asumiendo iid, puedes tener alguna dificultad).
0 votos
Para demostrar que los medios de la muestra se parecen más a la normalidad con el tamaño de la muestra, son comunes los experimentos de simulación; allí se tiene control sobre las condiciones. Del mismo modo, cuando se demuestra el fracaso de una tendencia de este tipo, se procede rompiendo alguna condición. En los datos reales generalmente no se puede saber con seguridad qué circunstancias se aplican, con los datos simulados sí.
2 votos
Hay un conjunto de datos reales (de un experimento - aunque algo artificial) - 40000 lanzamientos de monedas - enlazado desde aquí
0 votos
@Glen_b: Sí, no quiero usar simulaciones porque aunque son estudiantes de CS, la mayoría de ellos parece no dominar R, y la simulación parece artificial de todos modos. Estoy de acuerdo en que CLT no es un resultado de muestra finita en principio, pero creo que necesito algún ejemplo concreto para mostrarles, de lo contrario es demasiado abstracto.
1 votos
Puede mostrarles algo sobre cómo se comportan las medias muestrales en situaciones particulares con el aumento del tamaño de la muestra, lo cual es bastante útil; sólo que no es estrictamente exacto atribuírselo al CLT. Los datos de las tiradas de monedas pueden ser útiles para ello (al igual que los datos que ellos mismos generan de forma similar). Sin embargo, es posible que quieras leer la información en el enlace antes de obtener los datos, porque hay una característica importante de los datos (que es también la motivación para recogerlos en primer lugar).
0 votos
@Glen_b: ¡Gracias! Intentaré encontrar alguna información como la renta media de los hogares estadounidenses. Tal vez sea útil.
0 votos
Para mostrar una distribución empírica de las medias muestrales se necesitan múltiples muestras de las que tomar las medias. Si quieres mostrar una tendencia a parecer más normal necesitas múltiples muestras en cada una de ellas de tamaños de muestra progresivamente mayores. Una sola media no sirve para nada (¿cuál es su distribución?). Podrías mirar los datos de Student con las longitudes de los dedos, quizás.
0 votos
@Glen_b: Estoy de acuerdo en que desde esta perspectiva la renta media no es tan útil. Déjeme pensar más detenidamente en esto.
0 votos
Ahora bien, dado que se necesitan múltiples muestras, con múltiples tamaños de muestra (a riesgo de repetirme), la dificultad de conseguir tantos conjuntos de datos reales de este tipo es que suele ser difícil afirmar que son iid (lo que supongo que estás empezando a suponer).
0 votos
@Glen_b: Estoy de acuerdo en que esto es un problema. Tengo que pensar en ello.
1 votos
Los ejemplos de casi todo lo que enumeras se encuentran en buenos textos de introducción a la estadística, como por ejemplo Freedman, Pisani y Purves . (He enlazado con la tercera edición, que se puede encontrar fácilmente de segunda mano por menos de 10 dólares estadounidenses. Cualquier edición servirá; la más reciente puede tener ejemplos más actualizados).
0 votos
@whuber: En realidad no. He revisado al menos 4 libros de texto diferentes sobre este tema y no tienen ningún ejemplo bueno disponible. Por ejemplo el libro de texto que utilizan (Sheldon Ross) es sencillamente terrible.
0 votos
Obviamente no has mirado el que te recomendé.
0 votos
@whuber: Con la clase pendiente de mañana no creo que pueda encontrar el libro, pero puedo hacer un intento más tarde.
0 votos
@whuber: He echado un vistazo al libro y he descubierto que es totalmente inútil. Otros TAs en mi departamento coinciden con mi punto de vista.
0 votos
Y ahí, al parecer, radica la diferencia entre las matemáticas y la estadística.
0 votos
@whuber: Tal vez. No pretendo ser crítico, pero no he encontrado ningún ejemplo de la vida real que pueda utilizar. Puede ser por mi falta de formación estadística o algo así.
1 votos
Debes estar mirando un libro diferente. El que he enlazado utiliza muchos ejemplos de la vida real, a menudo introduciendo material nuevo con un estudio de caso. Además, muchos de ellos son los "ejemplos canónicos" que buscas: los conocidos por la mayoría de los estadísticos y que se utilizan con frecuencia para enseñar los principios fundamentales: los ensayos de la vacuna contra la poliomielitis de Salk, la encuesta del Literary Digest de 1936, la regresión de Galton de las alturas de padre e hijo, el experimento de Kerrich de lanzar monedas, la encuesta de población actual de EE.UU., los experimentos de Mendel con guisantes, la encuesta de Gallup, etc., etc. Los ejercicios utilizan datos reales y relevantes en lugar de estúpidos problemas inventados.
0 votos
@whuber: No he encontrado nada de eso. Estoy de acuerdo en que sería interesante mostrarles estas cosas. Quizás la nueva edición que leí era diferente. Si tuviera tiempo podría hacer una doble comprobación.
0 votos
Acabo de comprobar el cuarta edición en Amazon con su función "Look Inside". Los ejemplos que he mencionado siguen estando ahí; algunos incluso se mencionan de forma destacada en el índice. La introducción, "¿Qué hay de nuevo en la cuarta edición?", dice que los datos han sido actualizados. (Se trata de los datos utilizados en los ejemplos y ejercicios, que son datos reales).
0 votos
@whuber: Sí, creo que esta es la edición que utilizamos para los estudiantes de primer año. No estoy seguro de la discrepancia. Si puedo encontrar el libro estaré encantado de dar una revisión, ya que tengo que dar la misma clase el próximo semestre. Gracias por la ayuda.