6 votos

¿Qué significa cuando, a tres desviaciones estándar de la media, caigo fuera del valor mínimo o máximo?

Tengo un conjunto de datos con las siguientes características y no logro entenderlo. "Tres desviaciones estándar incluyen el 99.7% de los datos" es lo que me digo a mí mismo, pero eso parece estar mal redactado.

Observaciones: 2246
Media: 39
Desv. est.: 3
Mínimo: 34
Máximo: 46
Media - 3*sd: 30
Media + 3*sd: 48

Esto me dice que el 99.7% de los datos está entre 30 y 48, pero el 100% de los datos está entre 34 y 46 y eso no tiene sentido. ¿Significa simplemente que mi muestra no es representativa de la población total? Quiero decir, obviamente, no lo es, pero asumamos que no sé que existen humanos menores de 34 y mayores de 46. Por cierto, esto es de la variable edad del conjunto de datos de muestra Stata nlsw88.dta.

He mirado esta pregunta, pero tampoco me ayuda a deshacer el nudo en mi cerebro. ht lugar para preguntar.

EDITAR: Acabo de darme cuenta de que son muchas preguntas. Por favor, considere que la pregunta principal necesita una respuesta. El resto es más que nada mi confuso proceso de pensamiento desenrollándose.

1 votos

El mínimo y el máximo son el mínimo y el máximo de la población que observaste. La desviación estándar se calcula a partir de la muestra de la población. Suponiendo entonces una población infinitamente grande con las mismas características que la muestra observada, y una distribución normal, el 99,7% de las personas estaría entre 30 y 48. La consecuencia es que tu muestra inicial tendría que haber sido más grande para haber observado a alguien menor de 34 o mayor de 46.

19voto

AdamSane Puntos 1825

"Tres desvíos estándar incluyen el 99.7% de los datos"

Necesitas agregar algunas advertencias a una afirmación como esta.

La cuestión del 99.7% es un hecho sobre las distribuciones normales -- el 99.7% de los valores de la población estarán dentro de tres desviaciones estándar de la media poblacional.

densidad normal

En muestras grandes* de una distribución normal, generalmente será aproximadamente cierto -- cerca del 99.7% de los datos estarían dentro de tres desviaciones estándar muestrales de la media muestral (si estuvieras tomando una muestra de una distribución normal, tu muestra debería ser lo suficientemente grande para que esto sea aproximadamente cierto - parece haber cerca de un 73% de probabilidad de obtener $0.9973 \pm 0.0010$ con una muestra de ese tamaño).

* asumiendo muestreo aleatorio

Pero no tienes una muestra de una distribución normal.

Si no pones algunas restricciones en la forma de la distribución, la proporción real dentro de 3 desviaciones estándar de la media puede ser mayor o menor.

densidad normalizada-uniforme $\qquad\qquad^\text{Ejemplo de una distribución con el 100% de la distribución dentro de 2 desviaciones estándar de la media}$

La proporción de una distribución dentro de 3 desviaciones estándar de la media podría ser tan baja como 88.9%. Puede que necesites más de 18 desviaciones estándar para obtener el 99.7% adentro. Por otro lado, puedes obtener más de 99.7% dentro de mucho menos de una desviación estándar. Así que la regla del 99.7% solo es útil si especificas un poco más la forma de la distribución.

Si relajas un poco tus expectativas (para ser solo muy "aproximadamente" 99.7%), entonces la regla a veces es útil sin necesidad de normalidad, siempre y cuando recordemos que no siempre funcionará en todas las situaciones - incluso aproximadamente.

0 votos

Sospecho que tu 88.9% proviene de es.wikipedia.org/wiki/Desigualdad_de_Kolmogorov. Era bastante bueno en la clase de Probabilidad, pero eso fue hace muchos años.

1 votos

@emory Creo que es solo la desigualdad de Chebyshev :)

1 votos

@Ant Gracias. Eso parece correcto. es.wikipedia.org/wiki/Desigualdad_de_Chebyshev

2voto

user287773 Puntos 11

La respuesta corta es que tu muestra no ha seguido precisamente una distribución normal, por lo que sugiere tal vez que necesites volver a examinar tus suposiciones básicas, específicamente aquellas en las que aplicas herramientas diseñadas para trabajar con una población normalmente distribuida.

Solo da la vuelta a tu pregunta para iluminación. Si tu muestra hubiera sido distribuida normalmente, entonces uno esperaría que un tamaño de muestra de ~2000 arrojara 6 datos fuera del rango 30-48, en promedio. La tuya no lo hace, lo que señala la pregunta '¿Cuál es la importancia de esta desviación de lo normal para cualquier predicción que realices asumiendo que tu población más amplia sigue una distribución normal?'

Entonces, la implicación más amplia de esta pequeña anomalía es que, aunque tu muestra puede no diferir mucho de una distribución normal, algunas predicciones hechas asumiendo que representa una población normalmente distribuida más grande podrían ser inherentemente defectuosas y pueden requerir cierta calificación o investigación adicional. Sin embargo, estimar la probabilidad de esta desviación de lo normal, y los márgenes de error implícitos y la confiabilidad de las predicciones resultantes están muy por encima de mi nivel de habilidad, ¡aunque afortunadamente se exploran en las muchas otras respuestas aquí!

Pero claramente tienes el buen hábito de escrutar tus resultados en detalle, cuestionar lo que tus resultados realmente significan y si prueban tu hipótesis original o no. Busca más anormalidades reveladas en los datos, como la curtosis y el sesgo para ver qué pistas revelan o quizás considera otras distribuciones que representen mejor a tu población.

1 votos

Eso o simplemente por pura casualidad, no había puntos de datos en el rango.

0voto

jgradim Puntos 1143

“Tres desvíos estándar ($3\sqrt{\sigma^2}$) incluyen el 99.7% de los datos” se refiere a distribuciones gaussianas. Para distribuciones en general, la desigualdad de Chebyshev establece un límite inferior en la cantidad de masa de probabilidad dentro de $k$ de la media. ¿Pero hay un límite superior?

Con una distribución de Bernoulli con $p$ = .5, la $\sigma$ es .5. La media $\mu$ también es .5, lo que significa que el 100% de la distribución está dentro de $1\sigma$ o $\mu$. ¿Qué pasa con números más pequeños de desviaciones estándar?

Nota: lo siguiente, para simplicidad, es un argumento con respecto a distribuciones con $\mu = 0$. Su extensión a distribuciones con $\mu$ arbitrario es razonablemente trivial.

Dado cualquier $\varepsilon$ positivo y $M$, existe una distribución tal que tienes $\varepsilon/2$ de la masa de probabilidad $\leftarrow M$ y $\varepsilon/2$ de la masa de probabilidad $\gt M$. Es decir,

$p(\lvert{x}\rvert \gt M) = \varepsilon$

Todo lo demás siendo igual, a medida que $M \to \infty$, entonces $\sigma \to \infty$. Sin embargo, para cualquier $N$ positivo fijo, una vez que $M$ excede a $N$, la masa de probabilidad dentro de $N$ de cero es siempre $1-\varepsilon$, independientemente de $M$. Así, si miramos la distancia relativa desde cero (es decir, el número de desviaciones estándar en el que el valor se encuentra $= \frac{\lvert{x}\rvert}{\sigma}$), entonces a medida que $M \to \infty$, tenemos $n \to \infty$, donde $n$ es el mayor entero tal que "$1-\varepsilon$ de la probabilidad está dentro de $n\sigma$ de $\mu$" es verdadero.

Esto muestra que para cualquier número positivo $\varepsilon$ y $n$, existe alguna distribución tal que la probabilidad de estar a más de $n\sigma$ de cero es menor que $\varepsilon$. Entonces, por ejemplo, si deseas una probabilidad del 99.999% de estar a menos de .000001 $\sigma$ de cero, hay una distribución que satisface eso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X