14 votos

¿Es la desviación estándar totalmente errónea? ¿Cómo se puede calcular la desviación estándar para las alturas, los recuentos, etc. (números positivos)?

Digamos que estoy calculando alturas (en cm) y los números deben ser mayores que cero.

Esta es la lista de muestra:

0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981

Mean: 0.41138725956196015
Std: 0.2860541519582141

En este ejemplo, según la distribución normal, el 99,7% de los valores deben estar entre ±3 veces la desviación típica de la media. Sin embargo, incluso el doble de la desviación estándar se convierte en negativo:

-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468

Sin embargo, mis números deben ser positivos. Así que deben ser superiores a 0. Puedo ignorar los números negativos, pero dudo que esta sea la forma correcta de calcular las probabilidades utilizando la desviación estándar.

¿Puede alguien ayudarme a entender si estoy utilizando esto de forma correcta? ¿O tengo que elegir un método diferente?

Bueno, para ser honesto, las matemáticas son las matemáticas. No importa si es una distribución normal o no. Si funciona con números sin signo, ¡también debería funcionar con números positivos! ¿Estoy equivocado?

EDIT1: Añadido el histograma

Para ser más claro, he añadido el histograma de mis datos reales enter image description here

EDIT2: Algunos valores

Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05

28 votos

Creo que el malentendido aquí es que una distribución que sólo puede tener números positivos no es normal, por lo que la regla del 99,7% que afirmas no se aplica. En segundo lugar, a partir de la fórmula de la desviación estándar (de la muestra), puedes ver que no hay ninguna condición para que ninguno de los valores originales sea positivo, así que ¿por qué iba a estar mal? Puede ser que sea usado erróneamente, pero las estadísticas son en su mayoría agnósticas y no deben aplicarse sin sentido.

0 votos

La pregunta es: ¿Cuál es su objetivo? ¿Qué quiere mostrar con estos datos?

0 votos

La pregunta es: ¿cuál es la forma correcta de aplicar el 68-95-99,7 a mi caso? ¡Si este es un enfoque incorrecto entonces std debería fallar con otros cálculos de distribución normal uniforme y se vuelve poco fiable!

24voto

I-Ii Puntos 91

Si sus números sólo pueden ser positivos, entonces modelarlos como una distribución normal puede no ser deseable dependiendo de su caso de uso, porque la distribución normal es compatible con todos los números reales.

¿Quizás quiera modelar la altura como una distribución exponencial, o quizás una distribución normal truncada?

EDIT: Después de ver tus datos, ¡realmente parece que se ajustan bien a una distribución exponencial! Usted podría estimar el $ \lambda $ parámetro mediante, por ejemplo, un enfoque de máxima verosimilitud.

11 votos

La primera frase no es correcta en general: Muchas cantidades que son estrictamente positivas a menudo pueden ser aproximadas por una distribución normal. Si la masa de probabilidad por debajo de 0 es muy pequeña, no importa a efectos prácticos. En este caso particular, es ciertamente correcto.

14 votos

-1 Esta respuesta refleja una idea errónea muy extendida (y en mi opinión perniciosa) sobre lo que es un modelo estadístico y lo que significa realmente modelar los datos con una distribución Normal. De hecho, si creyéramos lo que dice este post, entonces sería "ciertamente incorrecto" aproximar alguna vez una distribución Binomial con una distribución Normal--¡pero este es históricamente el uso original y probablemente más extendido de la distribución Normal! (Edición: He quitado el voto negativo porque has modificado la afirmación original en una que es mucho más correcta y útil).

0 votos

Es un punto justo. Lo he editado para que sea una afirmación más suave. Aunque, ¿no sería una distribución normal truncada una aproximación superior en todos los casos de los que hablas? (EDIT: @whuber En el caso en el que te basas en la CLT, tienes toda la razón. No había pensado en las aproximaciones; había asumido que el OP quería modelar directamente la distribución de las alturas con una distribución fuera de la caja)

21voto

Silverfish Puntos 6909

"¿Cuál es la forma correcta de aplicar el 68-95-99.7 a mi caso?"

Sólo hay que esperar que esa regla general de la cobertura se aplique exactamente si se toda la población (infinita) o distribución de probabilidad teórica y (2) la distribución es exactamente normal .

Si se toma una muestra aleatoria de tamaño 20, incluso de una distribución genuinamente normal, no siempre se encontrará que el 95% de los datos (19 de los 20 elementos) se encuentran dentro de 2 (o 1,960) desviaciones estándar de la media. De hecho, no está garantizado que 19 de los 20 elementos se sitúen dentro de las 1,960 desviaciones típicas de la media de la población, ni que 19 de los 20 elementos se sitúen dentro de las 1,960 desviaciones típicas de la media de la muestra.

Si se toma una muestra de datos de una distribución que no es del todo normal, tampoco se puede esperar que la regla del 68-95-99,7 se aplique exactamente. Pero puede acercarse razonablemente a hacerlo, sobre todo si el tamaño de la muestra es grande (la regla del "99,7% de cobertura" puede no ser especialmente significativa con un tamaño de muestra inferior a 1.000) y la distribución es razonablemente cercana a la normalidad. En teoría, muchos datos, como la altura o el peso, podrían no proceder de una distribución precisamente normal, lo que implicaría una probabilidad pequeña, pero no nula, de que fueran negativos. Sin embargo, para datos con una distribución aproximadamente simétrica y unimodal, en la que los valores medios son más comunes y los valores extremadamente altos o bajos disminuyen su probabilidad, el modelo de una distribución normal puede ser adecuado a efectos prácticos. Por cierto, puede interesarle Si mi histograma muestra una curva en forma de campana, ¿puedo decir que mis datos están distribuidos normalmente?

Si quiere límites teóricamente vinculantes que se apliquen a cualquier distribución, entonces vea La desigualdad de Chebyshev que establece que a lo sumo $1/k^2$ de los valores puede estar más de $k$ desviaciones estándar de la media. Esto garantiza que al menos el 75% de los datos se encuentran dentro de las dos desviaciones estándar de la media, y el 89% dentro de las tres desviaciones estándar. Pero estas cifras son sólo el mínimo teóricamente garantizado. En muchas distribuciones con forma de campana, la cifra de cobertura de dos desviaciones estándar se acerca más al 95% que al 75%, por lo que la "regla general" de la distribución normal sigue siendo útil. Por otro lado, si sus datos proceden de una distribución que no tiene ni de lejos forma de campana, puede encontrar un modelo alternativo que describa mejor los datos y tenga una regla de cobertura diferente.

(Una cosa buena de la regla 68-95-99.7 es que se aplica a cualquier distribución normal, independientemente de sus parámetros de media o desviación estándar. Del mismo modo, la desigualdad de Chebyshev se aplica independientemente de los parámetros, o incluso de la distribución, aunque sólo da límites inferiores para la cobertura. Pero si se aplica, por ejemplo, una normal truncada o sesgo normal entonces no hay un equivalente simple de cobertura "68-95-99,7", porque dependería de los parámetros de la distribución).

7voto

James Martin Puntos 71

¿Puede alguien ayudarme a entender si estoy utilizando esto de forma correcta?

Oh, eso es fácil. No, no lo estás usando correctamente.

En primer lugar, estás utilizando un conjunto de datos bastante pequeño. Tratar de extraer el comportamiento estadístico de un conjunto de este tamaño es ciertamente posible, pero los límites de confianza son (ejem) bastante grandes. En los conjuntos de datos pequeños, las desviaciones de las distribuciones esperadas son normales, y cuanto más pequeño sea el conjunto, mayor será el problema. Recuerde: "La ley de las medias no sólo permite las coincidencias más escandalosas, sino que las exige".

Y lo que es peor, el conjunto de datos que está utilizando no se parece mucho a una distribución normal. Piénsalo: con una media de 0,498 tienes dos muestras por debajo de 0,1 y otras tres con 0,748 o más. Luego tienes un grupo de 3 puntos entre 0,17 y 0,22. Mirar este conjunto de datos en particular y argumentar que debe ser una distribución normal es un caso bastante bueno de argumento de Procusto. ¿Te parece una curva de campana? Es perfectamente posible que la población más amplia siga una distribución normal, o normal modificada, y que un mayor tamaño de la muestra resuelva la cuestión, pero yo no apostaría por ello, sobre todo sin saber más sobre la población.

Digo normal modificado, ya que como ha señalado Kevin Li, técnicamente un distribución normal incluye todos los números reales. Como también se ha señalado en los comentarios a su respuesta, esto no impide aplicar dicha distribución en un rango limitado y obtener resultados útiles. Como dice el refrán, "Todos los modelos son erróneos. Algunos son útiles".

Pero este conjunto de datos en particular simplemente no parece que inferir una distribución normal (incluso en un rango limitado) sea una idea particularmente buena. Si sus 10 puntos de datos tuvieran el aspecto de 0,275, 0,325, 0,375, 0,425, 0,475, 0,525, 0,625, 0,725 (media de 0,500), ¿asumiría una distribución normal?

0 votos

He utilizado un dato aleatorio para poder explicar mis necesidades y mi problema

1 votos

@DonCoder Los datos aleatorios (a no ser que los retoques de alguna manera) seguirían la distribución uniforme, no la normal.

5 votos

Es necesario generar datos aleatorios a partir de alguna distribución. ¿Cuál has elegido?

2voto

Zizzencs Puntos 1358

En uno de los comentarios dices que has utilizado "datos aleatorios" pero no dices de qué distribución. Si te refieres a las alturas de los seres humanos, éstas se distribuyen aproximadamente de forma normal, pero tus datos no son ni remotamente apropiados para las alturas humanas: ¡los tuyos son fracciones de centímetro!

Y tus datos no son ni remotamente normales. Supongo que has utilizado una distribución uniforme con límites de 0 y 1. Y has generado una muestra muy pequeña. Probemos con una muestra más grande:

set.seed(1234)  #Sets a seed
x <- runif(10000, 0 , 1)
sd(x)  #0.28

Por lo tanto, ninguno de los datos está a más de 2 sd de la media, porque eso está más allá de los límites de los datos. Y la porción dentro de 1 sd será aproximadamente 0,56.

1voto

rinspy Puntos 106

A menudo, cuando se tiene la restricción de que las muestras deben ser todas positivas, vale la pena mirar el logaritmo de los datos para ver si la distribución puede ser aproximada por una distribución lognormal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X