2 votos

Forma de un histograma con resultados igualmente probables

En una clase grande de estudiantes de introducción a la estadística, el profesor hace que cada estudiante lance una moneda 16 veces y calcule la proporción de sus lanzamientos que salieron cara. Los estudiantes informan de sus resultados y el profesor traza un histograma de estas proporciones. ¿Qué forma esperarías que tuviera el histograma? ¿Por qué?

La respuesta dice: Esperaríamos que el Histograma fuera uni-modal y simétrico (es decir, con forma de curva Normal) porque la probabilidad de cabezas y colas es igual.

¿Por qué el hecho de que las probabilidades de cara y cruz sean iguales implica un Histograma uni-modal y simétrico?

1voto

AdamSane Puntos 1825

¿Por qué el hecho de que las probabilidades de cara y cruz sean iguales implica un Histograma uni-modal y simétrico?

Dejemos de lado por un momento el histograma de una muestra y centrémonos en la distribución de la población antes de volver a discutir el tema del histograma.

En este caso tenemos que ampliar ligeramente el concepto intuitivo del término "unimodal", para contar más de una probabilidad mayor adyacente pero igual como constituyente de un único "modo" (estrictamente sólo lo necesitamos para dos para el caso concreto que nos ocupa, pero la definición habitual tiende a ser de esta forma).

Demostrar esto para la binomial es razonablemente sencillo (se reduce a considerar las relaciones en el triángulo de Pascal), pero voy a discutir la cuestión más general: ¿una suma de variantes simétricas unimodales independientes tiene una distribución que es simétrica y unimodal?

La respuesta es sí en el caso general, tanto para variables continuas como discretas.

Simetría es bastante sencillo.

Cuando sumamos dos variables aleatorias independientes, la pmf (/densidad) de la suma es la convolución de los dos pmfs (/densidades).

Eso es, $P(X_1 + X_2 = t) = \sum_k P(X_1=k) \times P(X_2 = t-k)$ donde la suma es sobre los posibles valores de $k$ (hay un enunciado equivalente para las funciones continuas, pero vamos a seguir con la discreta por ahora).

[Dos asideros: (i) la convolución de dos distribuciones unimodales no siempre es unimodal (considere las probabilidades de $\{\frac46,\frac16,\frac16\}$ en $\{0,1,2\}$ ), por lo que debemos tener cuidado de mantenernos en el caso simétrico; (ii) podemos demostrar el caso general de la convolución de n variables considerando las convoluciones de sólo dos variables, ya que la convolución de tres variables puede escribirse como la convolución de las dos primeras, a su vez convolucionada con la tercera, y así sucesivamente para más variables].

Si las dos funciones de entrada son simétricas respecto a algunos centros ( $m_1$ y $m_2$ respectivamente), entonces la salida de la convolución será simétrica respecto a $m=m_1+m_2$ .

En la suma para $t=m+s$ y $t=m-s$ hay un término correspondiente igualmente por encima / por debajo $m_1$ y $m_2$ en cada suma (usando la simetría de la entrada ) para que podamos emparejar cada término de cada producto dentro de cada suma con uno al que sea igual.

Simétrico y unimodal

Hay una prueba en [2] que se basa en dos pasos para establecer el caso de las distribuciones discretas en los enteros. Restringe la atención al caso en que los centros de simetría están en $0$ sin pérdida de generalidad.

El primer paso establece que una distribución unimodal sobre números enteros puede escribirse de forma única como una mezcla de uniformes. (Teorema 4.3, que no intentaré reproducir). El segundo (Teorema 4.7) muestra que las convoluciones de uniformes son unimodales (lo cual es sencillo) y utiliza el hecho de que la convolución de mezclas de uniformes es una mezcla de convoluciones de uniformes.

Hay una prueba en [1] que se basa en el hecho de que si $X_1,X_2$ son variantes independientes idénticamente distribuidas con distribuciones unimodales, entonces $X_1-X_2$ es simétrico, un resultado originalmente debido a Hodges y Lehmann. El artículo contiene una prueba de que las convoluciones de densidades simétricas unimodales son simétricas unimodales para el caso continuo y menciona que los métodos se extienden al caso discreto.

(Supongo que existen otras pruebas fuera de la literatura estadística, pero no he visto ninguna).

Histogramas

Un histograma es el más adecuado para mostrar una muestra de una variable continua (o una variable con un número tan grande de resultados discretos que mostrar las proporciones individuales daría una visualización desordenada - probablemente bien en los cientos de resultados posibles para una distribución discreta con resultados igualmente espaciados).

Por consiguiente, no utilizaría un histograma para mostrar una muestra de este tipo, al menos no sin mucho cuidado; en cambio, si quisiera mostrar un pmf empírico, simplemente mostraría cada una de las proporciones individuales. (Sin embargo, para algunos propósitos, probablemente preferiría ver una fdp empírica; depende de lo que estemos buscando).

Si tiene que utilizar un histograma en lugar de trazar directamente los resultados, debe esforzarse en que los intervalos tengan la misma anchura que la distancia entre los posibles resultados adyacentes (o alguna fracción simple de esa distancia) y que los centros de los intervalos estén alineados con los posibles resultados. Esto evita la posibilidad de combinar algunos resultados en un solo recipiente de forma desigual.

BruceET lo hace en su respuesta, por lo que sus histogramas no son engañosos en el sentido que yo advertía. Los puntos rojos que él muestra son el tipo de visualización que yo estaba defendiendo como una buena manera de mostrar pmfs (población o muestra).

Estoy de acuerdo con su advertencia sobre juzgar la simetría de las poblaciones a partir de la simetría de las muestras. En general las muestras serán asimétricas y una apariencia de casi simetría no es lo mismo que tener simetría en la población.


[1] Purkayastha, S., 1998.
"Pruebas sencillas de dos resultados sobre convoluciones de distribuciones unimodales".
Statistics & Probability Letters, volumen 39, número 2, p 97-100.

[2] Dharmadhikari, S.W., Joag-Dev, K., 1988.
Unimodalidad, convexidad y aplicaciones .
Academic Press, Nueva York.

0voto

manku Puntos 111

Si hay 100 estudiantes en la clase y están lanzando monedas justas de forma independiente, entonces se tiene una muestra de tamaño 100 de $\mathsf{Binom}(16, 0.5).$

Simulando este experimento de 100 estudiantes en R, obtengo el histograma mostrado.

set.seed(129)
x = rbinom(100, 16, .5)
cutp = (0:17)-.5
hdr = "100 observations from BINOM(16,.5)"
hist(x, prob=T, br=cutp, col="skyblue2", main=hdr)

enter image description here

La siguiente copia de este histograma tiene puntos rojos que muestran las probabilidades para cada valor del histograma. (Cien observaciones no son suficientes para que las barras del histograma se acerquen a sus alturas esperadas).

k = 0:16;  pdf = dbinom(k, 16, .5)
hist(x, prob=T, br=cutp, col="skyblue2", main=hdr)
points(k, pdf, pch=19, col="red")

enter image description here

Si esto fuera un realmente grande clase de $10\,000$ estudiantes en línea, entonces (después de la tabulación de todos los resultados) la cifra podría ser como esto:

set.seed(2022)
y = rbinom(10^4, 16, .5)
cutp = (0:17)-.5
hdr = "10,000 observations from BINOM(16,.5)"
hist(y, prob=T, br=cutp, col="skyblue2", main=hdr)
 points(k, pdf, pch=19, col="red")

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X