3 votos

¿Por qué las colas de las distribuciones estimadas a partir de muestras son las más propensas a desviarse de las distribuciones teóricas?

Desde que empecé a estudiar estadística me he dado cuenta de que las colas de las distribuciones de las muestras suelen ser las que se desvían de las distribuciones teóricas.

Por ejemplo, la mayoría de los gráficos Q-Q no se ajustan a la línea y=x alrededor de los puntos inicial y final.

¿A qué se debe esto y cuáles son algunas de las técnicas utilizadas para resolver este problema?

Gracias.

0voto

Zizzencs Puntos 1358

No sé si hay una respuesta general que se aplique en todos los casos, pero creo que un factor importante es que las desviaciones son más notables en las colas.

Suponga que sospecha que la variable en cuestión debería tener una distribución normal. Para concretar, digamos que es la altura de los hombres adultos. Ahora bien, en una muestra de tamaño razonable (digamos N = 100) la Normal podría predecir una sola persona que mide más de 1,90 metros. Pero si no hay ninguna, o dos, eso será muy evidente. Por otro lado, podría predecir 10 personas entre 1,5 y 1,5 metros. Si hay 9, u 11, eso no será tan evidente.

También puede ser que el actual la distribución no es exactamente normal. Pero, de nuevo, las desviaciones serán más evidentes en las colas.

set.seed(1234)  #Sets a random number seed

dist1 <- rnorm(100,0, 1) #Random normal with N = 100, mean 0, sd 1
dist2 <- c(dist1, 4) #Add a single extreme point
dist3 <- c(dist1, 0) #Add a point at the mean

qqplot(dist1,dist2)
qqplot(dist1, dist3)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X