32 votos

¿Cómo puede adivinar mejor un estadístico que tiene los datos de una distribución no normal que uno que sólo tiene la media?

Digamos que tenemos una partida con dos jugadores. Ambos saben que cinco muestras se extraen de alguna distribución (no normal). Ninguno de ellos conoce los parámetros de la distribución utilizada para generar los datos. El objetivo del juego es estimar la media de la distribución. El jugador que se acerque más a la media real gana 1\$ (la diferencia absoluta entre el valor estimado y el valor real es la función objetivo). Si la distribución tiene una media que se dispara a $\infty$ el jugador que adivine el número mayor gana y para $-\infty$ El que adivine el número más pequeño.

Mientras que al primer jugador se le dan las cinco muestras, al segundo se le da sólo la suma de las muestras (y saben que eran cinco).

¿Cuáles son algunos ejemplos de distribuciones en las que no es un juego justo y el primer jugador tiene ventaja? Supongo que la distribución normal no es una de ellas, ya que la media muestral es una estadística suficiente para la media verdadera.

Nota: Hice una pregunta similar aquí: ¿La media no es un estadístico suficiente para la distribución normal cuando no se conoce la varianza? sobre la distribución normal y se me sugirió que pidiera una nueva para las no normales.


EDIT: Dos respuestas con una distribución uniforme. Me encantaría conocer más ejemplos si la gente conoce alguno.

23voto

mclaughlinj Puntos 1099

Para una distribución uniforme entre $0$ y $2 \mu$ el jugador que adivine la media muestral lo hará peor que el que adivine $\frac{3}{5} \max(x_i)$ (el máximo muestral es un estadístico suficiente para la media de una distribución uniforme acotada por 0).

En este caso particular, se puede verificar numéricamente. Sin pérdida de generalidad, fijamos $\mu = 0.5$ en la simulación. Resulta que alrededor de 2/3 de las veces, el estimador máximo 3/5 lo hace mejor.

Aquí hay una simulación en Python que lo demuestra.

import numpy as np
Ntrials = 1000000
xs = np.random.random((5,Ntrials))
sample_mean_error = np.abs(xs.mean(axis=0)-0.5)
better_estimator_error = np.abs(0.6*xs.max(axis=0)-0.5)
print((sample_mean_error > better_estimator_error).sum())

12voto

manku Puntos 111

La suma de las observaciones no es suficiente para estimar la media de un uniforme población uniforme. El rango medio tiene una expectativa de error absoluto menor.

Aproximación por simulación en R:

    set.seed(2021)
    a = replicate(10^6, mean(runif(5)))
    mr = replicate(10^6, mean(range(runif(5))))
    mean(a);  mean(mr)
    [1] 0.5000905
    [1] 0.5000926
    mean(abs(a-.5)); mean(abs(mr-.5))
    [1] 0.1040754
    [1] 0.0833201

enter image description here

    par(mfrow=c(2,1))
    hdr1 = "UNIF(0,1): Simulated Dist'n of Mean of 5"
    hist(a, prob=T, xlim=0:1, br=30, col="skyblue2", main=hdr1)
    hdr2 = "UNIF(0,1): Sim. Dist'n of Midrange of 5"
    hist(mr, prob=T, xlim=0:1, br=30, col="skyblue2", main=hdr2)
    par(mfrow=c(1,1))

Nota por comentario: Utilizar el error medio al cuadrado en lugar del error absoluto. También con RMSE para unidades comparables.

    mean((a-.5)^2); mean((mr-.5)^2)
    [1] 0.01665874
    [1] 0.01190478

    sqrt(mean((a-.5)^2)); sqrt(mean((mr-.5)^2))
    [1] 0.1290687
    [1] 0.109109

11voto

Quizá merezca la pena añadir que mientras puede suele ser mejor para las familias paramétricas de baja dimensión, se no puede lo hacen mejor si la distribución es completamente desconocida (o completamente desconocida aparte de saber que tiene una media finita). La media es el único estimador de la media que funciona en todas las distribuciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X