20 votos

¿Por qué aumentar el tamaño de la muestra de lanzamientos de monedas no mejora la aproximación de la curva normal?

Estoy leyendo el Estadísticas (Freeman, Pisani, Purves) y estoy tratando de reproducir un ejemplo en el que se lanza una moneda digamos 50 veces, se cuenta el número de caras y se repite esto digamos 1.000 veces.

  1. En primer lugar, mantuve el número de lanzamientos (tamaño de la muestra) en 1000 y aumenté las repeticiones. Cuantas más repeticiones, mejor se ajustaban los datos a la curva normal.

  2. A continuación, probé a mantener fijo el número de repeticiones en 1.000 y aumenté el tamaño de la muestra. Cuanto mayor era el tamaño de la muestra, peor parecía ajustarse la curva normal a los datos. Esto parece ser contradictorio con el ejemplo del libro, que se aproxima mejor a la curva normal a medida que aumenta el tamaño de la muestra.

  3. Quería ver qué pasaba si aumentaba el tamaño de la muestra, pero con un mayor número de repeticiones que se fijaron en 10.000. Esto también parece contradecir el libro.

¿Alguna idea de lo que estoy haciendo mal?

Código y gráficos a continuación.

%matplotlib inline

def plot_hist(num_repetitions, num_tosses):
    tosses = np.random.randint(0, 2, size=[num_repetitions, num_tosses])
    sums = np.apply_along_axis(lambda a: np.sum(a == 1), 1, tosses)

    xmin, xmax = min(sums), max(sums)  
    lnspc = np.linspace(xmin, xmax, len(sums))

    m, s = stats.norm.fit(sums) # get mean and standard deviation  
    pdf_g = stats.norm.pdf(lnspc, m, s) # now get theoretical values in our interval  

    bins = np.arange(xmin, xmax) - 0.5
    step = int((xmax - xmin)/5)

    fig, ax = plt.subplots()
    _ = ax.hist(sums, bins, edgecolor='black', linewidth=1.2, density=True)
    _ = ax.plot(lnspc, pdf_g, label="Norm", color='red')
    _ = ax.set_xticks(bins[::step] + 0.5)
    _ = ax.set_title('{:,} tosses - {:,} repetitions'.format(num_tosses, num_repetitions))

1. Experimento con un número creciente de repeticiones (tamaño fijo de la muestra de 1000)

plot_hist(1000, 1000)

enter image description here

plot_hist(10000, 1000)

enter image description here

plot_hist(100000, 1000)

enter image description here

2. Experimento de aumento del tamaño de la muestra (fijado en 1000 repeticiones)

plot_hist(1000, 100)

enter image description here

plot_hist(1000, 1000)

enter image description here

plot_hist(1000, 10000)

enter image description here

3. Experimentar aumentando el tamaño de la muestra (fijado en 10.000 repeticiones)

plot_hist(10000, 100)

enter image description here

plot_hist(10000, 1000)

enter image description here

plot_hist(10000, 10000)

enter image description here

plot_hist(10000, 100000)

enter image description here

29voto

Nehal Dattani Puntos 331

En el segundo caso, al aumentar el número de lanzamientos, se incrementa el número de bins en los que puede caer un mismo ensayo. Mientras que el primer caso del experimento 2 sólo tiene un máximo de 100 bins que se pueden llenar, el último ejemplo tiene 10000 bins. Ha aumentado la "resolución" de su experimento en un factor 100 (es decir, una casilla en su primer experimento está ahora representada por aproximadamente 100 en el segundo). Por supuesto, esto significa que necesitará un factor 100 más de datos para rellenar los intervalos.

5voto

Stefan Puntos 737

Se puede pensar en un lanzamiento de moneda individual como un ensayo de Bernoulli independiente. Un ensayo te dará cara/cola o acierto/error, respectivamente. Si se repite esto unas 100.000 veces, el número medio de caras será muy cercano a 0,5, si la moneda es justa.

Ahora bien, si aumenta el número de ensayos a 1.000 y mantiene la repetición en 1, obtendrá una secuencia de 1.000 aciertos/fallos y no podrá decir mucho sobre la probabilidad de observar, por término medio, 500 caras, a menos que aumente el número de repeticiones para cada uno de esos ensayos independientes. A medida que aumente el número de repeticiones, obtendrá una aproximación cada vez mejor a la distribución normal.

Para mí es más fácil pensar en los ensayos no como "lanzamientos" o "tamaños de muestra", sino como monedas separadas y las repeticiones como el número de lanzamientos de cada una de esas monedas. Entonces también tiene sentido intuitivamente que al aumentar el número de monedas (o ensayos), manteniendo constante el número total de repeticiones (o lanzamientos), la aproximación de los datos a la distribución normal empeora.

2voto

user13317 Puntos 12

Creo que las otras respuestas aquí son estupendas, pero quería añadir una respuesta que se extiende a otra herramienta estadística.

Empiezas con una línea de base que crees que debería aproximarse a una curva normal, y luego vas desde ahí para ver si puedes aproximarte mejor a una curva normal. Intenta ir en la otra dirección y ver qué puedes hacer para aproximarte peor. Intenta simulaciones con 10 giros y 1000 repeticiones. Compáralo con simulaciones en las que tengas 1000 vueltas y 10 repeticiones. Debería estar claro que el primer caso tiene la mejor aproximación.

La extensión que quiero hacer es a ANOVA (análisis de varianza). Se ven muchos nuevos científicos de datos que tienen una mala comprensión de este problema, y diseñan sus estudios de manera que tengan muchas vueltas, pero pocas repeticiones. Tienen muchos datos, pero dicen menos de lo que les gustaría. Como medir cada hoja de un árbol, pero tener sólo dos árboles. Podemos decir bastante sobre las hojas de esos dos árboles, pero no sobre las hojas de los árboles en general. Habría sido mejor obtener una muestra mucho más pequeña de hojas y muchos árboles.

1voto

user164061 Puntos 281

Para obtener alguna intuición adicional, considere lo siguiente:

Imagina que haces una sola repetición.

En ese caso puedes aumentar el número de lanzamientos todo lo que quieras pero no se va a parecer a una distribución normal. Y esto tiene sentido ya que tu histograma sólo va a tener un único pico.


La distribución normal es una aproximación a la distribución de probabilidad (de la distribución binomial).

Lo que hiciste fue no crear esta distribución. Pero en su lugar , usted aproximado esta distribución utilizando un número limitado (y pequeño) de simulaciones. (y lo que descubriste es que esta aproximación empeora cuando aumentas el número de bins en el histograma)


Así que ambos necesitan un elevado número de lanzamientos y repeticiones.

  • cuando el número de lanzamientos es elevado, la distribución binomial (lanzamientos múltiples de monedas) puede aproximarse mediante una distribución normal.
  • cuando el número de repeticiones/simulaciones es elevado que el histograma de estos experimentos se aproxima a la densidad de la distribución binomial.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X