11 votos

¿Cuáles son los buenos ejemplos para mostrar a los estudiantes universitarios?

Voy a dar clases de estadística como ayudante de cátedra durante la segunda mitad de este semestre a estudiantes de grado orientados a la informática. La mayoría de los estudiantes que tomaron la clase no tienen ningún incentivo para aprender la asignatura y sólo la tomaron por requisitos de la carrera. Quiero hacer que la asignatura sea interesante y útil, no sólo una clase que aprenden para sacar un notable para aprobar.

Como estudiante de doctorado de matemáticas puras, sabía poco de la vida real aplicada. Quiero pedir algunas aplicaciones en la vida real de la estadística de grado. Los ejemplos que busco son algunos (en espíritu) como:

1) Mostrar el teorema del límite central es útil para ciertos datos de muestras grandes.

2) Proporcione un contraejemplo de que el teorema del límite central no es aplicable (digamos, los que siguen la distribución de Cauchy).

3) Mostrar cómo funcionan las pruebas de hipótesis en ejemplos famosos de la vida real utilizando la prueba Z, la prueba t o algo así.

4) Mostrar cómo un ajuste excesivo o una hipótesis inicial errónea pueden dar resultados equivocados.

5) Mostrar cómo funcionaron el valor p y el intervalo de confianza en casos reales (bien conocidos) y dónde no funcionan tan bien.

6) De forma similar, errores de tipo I, tipo II, potencia estadística, nivel de rechazo $\alpha$ etc.

Mi problema es que si bien tengo muchos ejemplos del lado de la probabilidad (lanzamiento de monedas, lanzamiento de dados, ruina del jugador, martingalas, paseo aleatorio, la paradoja de los tres prisioneros, el problema de Monty Hall, métodos de probabilidad en el diseño de algoritmos, etc), no conozco tantos ejemplos canónicos del lado de la estadística. Me refiero a ejemplos serios e interesantes que tengan algún valor pedagógico, y que no sean extremadamente artificiales que parezcan muy alejados de la vida real. No quiero dar a los estudiantes la falsa impresión de que la prueba Z y la prueba t lo son todo. Pero debido a mi formación matemática pura no conozco suficientes ejemplos para que la clase sea interesante y útil para ellos. Así que estoy buscando algo de ayuda.

El nivel de mi alumno está en torno al cálculo I y al cálculo II. Ellos no puede incluso muestran que la varianza de la normal estándar es 1 por definición, ya que no saben evaluar el núcleo gaussiano. Así que cualquier cosa ligeramente teórica o computacional (como la distribución hipergeométrica, la ley arcsin en el paseo aleatorio 1D) no va a funcionar. Quiero mostrar algunos ejemplos que puedan entender no sólo "cómo", sino también "por qué". De lo contrario, no estoy seguro de que vaya a demostrar lo que he dicho mediante la intimidación.

2 votos

Tal y como está planteada, parece un poco amplia y poco centrada: "algunas aplicaciones reales de la estadística de grado" no es especialmente adecuada para el formato de la GC. En el mejor de los casos, es una pregunta de "lista grande". Si (3) por sí sola puede ser demasiado amplia y desenfocada, pero podría ser un éxito con un poco de reformulación, y (4) podría mantenerse por sí sola lo suficientemente bien con un poco más de enfoque. (1) no puede tener éxito en ningún caso, ya que el teorema del límite central realmente no nos dice nada sobre lo que ocurre en $n=100$ o $n=1000$ o $n=10^{10}$ . No es un resultado de muestra fina.

3 votos

El teorema de Berry-Esseen (que supongo que no se enseña en ese nivel) podría se utilice con muestras finitas. De manera informal, por supuesto, las medias muestrales de determinadas distribuciones se vuelven cada vez más normales a medida que aumenta el tamaño de las muestras, pero no podemos decir realmente "eso es el teorema del límite central", ya que el CLT no dice nada al respecto. Además, para mostrar que las cosas se acercan cada vez más a una distribución normal, se necesita una secuencia de tamaños de muestra. En la recopilación de datos del mundo real eso es común sólo en los datos recogidos a lo largo del tiempo (así que si estás asumiendo iid, puedes tener alguna dificultad).

0 votos

Para demostrar que los medios de la muestra se parecen más a la normalidad con el tamaño de la muestra, son comunes los experimentos de simulación; allí se tiene control sobre las condiciones. Del mismo modo, cuando se demuestra el fracaso de una tendencia de este tipo, se procede rompiendo alguna condición. En los datos reales generalmente no se puede saber con seguridad qué circunstancias se aplican, con los datos simulados sí.

3voto

user8076 Puntos 16

Empecé escribiendo un comentario pero se hizo demasiado largo...

Tenga en cuenta que son estudiantes de CS. No los complacerás como a los matemáticos (con $\sigma$ álgebras) o biólogos, médicos (con datos biológicos o médicos, y recetas clásicas para probar las viejas hipótesis nulas). Si tienes suficiente libertad para decidir la orientación de la clase, si el objetivo es que aprendan conceptos básicos, mi consejo es que hagas un cambio radical de orientación. Por supuesto, si otros profesores quieren que sean capaces de realizar algunas tareas predefinidas, estás un poco atascado.

Así que, en mi opinión, les gustará si presentas la inferencia desde el punto de vista del "aprendizaje", y si presentas las pruebas desde el punto de vista de la "teoría de la decisión" o de la "clasificación"; en resumen, se supone que les gustarán los algoritmos. Que entiendan los algoritmos.

Además, intente encontrar conjuntos de datos relacionados con el CS; por ejemplo, la duración de las conexiones y el número de peticiones por unidad de tiempo a un servidor html pueden ayudar a ilustrar muchos conceptos.

Les encantará aprender técnicas de simulación. Los generadores de Lehmer son fáciles de implementar. Muéstrales cómo simular otras distribuciones invirtiendo la CDF. Si te gusta esto, enséñales el algoritmo Ziggurat de Marsaglia. Ah, y el generador MWC256 de Marsaglia es una pequeña joya. Las pruebas Diehard de Marsaglia (pruebas de equidad de generadores uniformes) pueden ayudar a ilustrar muchos conceptos de probabilidad y estadística. Incluso se puede optar por presentar la teoría de la probabilidad basada en "flujos (independientes) de dobles aleatorios, oups, quiero decir reales" - esto es un poco descarado, pero puede ser grandioso.

Además, recuerda que el page rank se basa en una cadena de Markov. Esto no es fácil, pero siguiendo la presentación de Arthur Engel (creo que la referencia es el ábaco probabilístico -- si lees en francés, este libro es absolutamente imprescindible de leer ), puedes presentar fácilmente algunos ejemplos de juguetes que les gusten. Creo que a los estudiantes de ciencias de la computación les gustarán mucho más las cadenas de Markov discretas que $t$ -prueba, aunque parezca un material más difícil (la presentación de Engel lo hace muy fácil).

Si dominas tu tema lo suficiente, no dudes en ser original. Las conferencias "clásicas" están bien cuando enseñas algo que no conoces del todo. Buena suerte, y si publicas algunos apuntes de conferencias, ¡házmelo saber!

2voto

kjetil b halvorsen Puntos 7012

Dices que se trata de estudiantes de informática. ¿Cuáles son sus intereses? ¿Se trata principalmente de informática teórica o de estudiantes motivados principalmente por la preparación para el trabajo? También podría decirnos cuál es la descripción del curso.

Pero, sea cual sea su respuesta a estas preguntas, podría empezar con algunas estadísticas prácticas que se dan en contextos informáticos, como (por ejemplo) el diseño de páginas web. Este sitio tiene de vez en cuando preguntas sobre esto, como Tasas de conversión a lo largo del tiempo o https://stats.stackexchange.com/questions/96853/comparing-sales-person-conversion-rates o AB Probando otros factores además de la tasa de conversión .

Hay muchas preguntas como estas, aparentemente de personas que se dedican al diseño web. La situación es que tienes alguna página web (digamos que vendes algo). La "tasa de conversión", tal y como yo la entiendo, es el porcentaje de visitantes que realizan alguna tarea preferida (como comprar, o algún otro objetivo que tengas para tus visitantes). Entonces tú, como diseñador web, te preguntas si tu diseño de la página influye en este comportamiento. Así que programas dos (o más) versiones de la página web, eliges al azar qué versión presentar a algún nuevo cliente, y puedes así comparar las tasas de conversión, y finalmente elegir implementar la versión con mayor tasa de conversión.

Se trata de un problema de diseño de un experimento de comparación, y se necesitan métodos estadísticos para comparar los porcentajes, o tal vez directamente la tabla de contingencia de los diseños frente a la conversión/no conversión. Este ejemplo podría mostrarles que la estadística podría ser realmente útil para ellos en algún trabajo de desarrollo web. Y, desde el punto de vista estadístico, abre un montón de preguntas interesantes sobre la validez de los supuestos...

Para conectar con lo que dices sobre el teorema central del límite, puedes preguntar cuántas observaciones necesitas antes de poder tratar los porcentajes como normalmente distribuidos, y hacer que estudien eso usando la simulación...

Puede buscar en este sitio otras preguntas sobre estadísticas planteadas por tipos de programadores...

2voto

rnso Puntos 2424

Una buena manera puede ser instalar R ( http://www.r-project.org/ ) y utilizar sus ejemplos para la enseñanza. Puede acceder a la ayuda en R con los comandos "?t.test", etc. Al final de cada archivo de ayuda hay ejemplos. Para t.test, por ejemplo:

> t.test(extra ~ group, data = sleep)

        Welch Two Sample t-test

data:  extra by group
t = -1.8608, df = 17.776, p-value = 0.07939
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.3654832  0.2054832
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

>  plot(extra ~ group, data = sleep)

enter image description here

2voto

Statos Puntos 68

Sugiero que se aplique el teorema del límite central para determinar previamente el tamaño de la muestra y encontrar una respuesta a preguntas como "¿he enviado suficientes cuestionarios?", etc.

http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf proporciona un buen ejemplo del mundo real de cómo aplicar el teorema del límite central. Una estrategia didáctica podría ser:

A) teoría

*Aclarar la diferencia entre una distribución de muestreo y la distribución de una estimación, por ejemplo, mediante la distribución "plana" de lanzar un dado frente a la distribución de la media de N dados (utilizar R o dejar que los alumnos incluso jueguen ellos mismos con Excel dibujando distribuciones de un solo valor frente a la distribución de medias)

*mostrar el cálculo basado en la fórmula de los percentiles para la distribución de la media (como estás metido en las matemáticas, puede que quieras derivar la fórmula) -- este punto corresponde a las diapositivas 10-17 de la presentación enlazada arriba

y luego (como en la diapositiva 20 de la presentación enlazada anteriormente):

B) aplicación

*Mostrar cómo el teorema del límite central ayuda a determinar el tamaño de las muestras para una exactitud deseada en las estimaciones de la media

Esta aplicación B) es lo que, según mi experiencia, los no estadísticos esperan de un estadístico: responder a preguntas del tipo "¿tengo suficientes datos?".

2voto

Dario Castañé Puntos 131

Dado que está enseñando a los estudiantes de CS, una buena aplicación del Teorema Central del Límite puede ser la estimación de la media de un conjunto de datos masivo (es decir, > 100 millones de registros). Podría ser instructivo mostrar que no es necesario calcular la media de todo el conjunto de datos, sino tomar una muestra del conjunto de datos y utilizar la media de la muestra para estimar la media de todo el conjunto de datos/base de datos. Si lo desea, puede dar un paso más y simular un conjunto de datos que tenga valores drásticamente diferentes para los distintos subgrupos. A continuación, puede hacer que los alumnos exploren el muestreo estratificado para obtener estimaciones más precisas.

De nuevo, dado que hay estudiantes de CS, es posible que quieras hacer algún bootstrapping para obtener también intervalos de confianza o para estimar las varianzas de estadísticas más complejas. Esta es una buena intersección de la estadística y la informática, ya que, en mi opinión, podría conducir a un mayor interés en la materia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X