Digamos que estoy calculando alturas (en cm) y los números deben ser mayores que cero.
Esta es la lista de muestra:
0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981
Mean: 0.41138725956196015
Std: 0.2860541519582141
En este ejemplo, según la distribución normal, el 99,7% de los valores deben estar entre ±3 veces la desviación típica de la media. Sin embargo, incluso el doble de la desviación estándar se convierte en negativo:
-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468
Sin embargo, mis números deben ser positivos. Así que deben ser superiores a 0. Puedo ignorar los números negativos, pero dudo que esta sea la forma correcta de calcular las probabilidades utilizando la desviación estándar.
¿Puede alguien ayudarme a entender si estoy utilizando esto de forma correcta? ¿O tengo que elegir un método diferente?
Bueno, para ser honesto, las matemáticas son las matemáticas. No importa si es una distribución normal o no. Si funciona con números sin signo, ¡también debería funcionar con números positivos! ¿Estoy equivocado?
EDIT1: Añadido el histograma
Para ser más claro, he añadido el histograma de mis datos reales
EDIT2: Algunos valores
Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05
28 votos
Creo que el malentendido aquí es que una distribución que sólo puede tener números positivos no es normal, por lo que la regla del 99,7% que afirmas no se aplica. En segundo lugar, a partir de la fórmula de la desviación estándar (de la muestra), puedes ver que no hay ninguna condición para que ninguno de los valores originales sea positivo, así que ¿por qué iba a estar mal? Puede ser que sea usado erróneamente, pero las estadísticas son en su mayoría agnósticas y no deben aplicarse sin sentido.
0 votos
La pregunta es: ¿Cuál es su objetivo? ¿Qué quiere mostrar con estos datos?
0 votos
La pregunta es: ¿cuál es la forma correcta de aplicar el 68-95-99,7 a mi caso? ¡Si este es un enfoque incorrecto entonces std debería fallar con otros cálculos de distribución normal uniforme y se vuelve poco fiable!
8 votos
Lo bueno de la regla 68-95-99,7, @Momo, es que hace se aplican incluso a muchas distribuciones decididamente no normales. En este caso, el 50% de los números están dentro de 1 sd de la media y el 100% están dentro de 2 sds de la media. Obsérvese que el 68% se aproxima con exactitud al 50% y el 95% se aproxima con exactitud al 100% dentro de las desviaciones que cabría esperar de un conjunto de datos tan pequeño. Así pues, este ejemplo ilustra la regla general, aunque pueda resultar poco convincente debido a su pequeño tamaño.
0 votos
@whuber ¿podemos usarlo así? Por ejemplo si 1.5 std menos que la media es 0, ¿podemos decir, 1.5 x std después de la media será 100%? 1,5 es sólo una muestra. Como has dicho, ¿podemos usar, por ejemplo, 2? Pero incluso 2 es a veces menos que 0.
2 votos
Estoy de acuerdo. Permítanme corregir esto a "por lo que la regla del 99,7% que usted afirma no necesariamente aplicar". La fuente de la confusión aquí parece ser la aplicación de esto como algo más que una regla general y no en términos de su matizado "aproximadamente dentro de las desviaciones que esperaríamos". El último comentario de la OP lo demuestra.
0 votos
Si los datos del ejemplo están en cm, ¿cuál es la especie? ¿No son humanos, o son embriones? Mi sospecha es que se trata de extracciones aleatorias de una distribución uniforme estándar continua. No es de extrañar que la distribución normal se ajuste mal a una distribución uniforme.
4 votos
¿Debería cambiarse el título por algo así como "Cómo aplicar la regla 68-95-99.7 a los datos que deben ser positivos"? Creo que eso capta mejor el espíritu de la pregunta. (No es un problema con la forma en que se calcula la desviación estándar, que es lo que sugiere el título, sino con la forma en que se utiliza para hallar probabilidades).
0 votos
Son la altura de la hierba. En realidad están divididos por 10 ya que quería mantener los números entre 0-1
0 votos
Para ser más claro, he editado mi pregunta y he añadido el histograma de mis datos reales. También he añadido los valores de la media y de la DE.
4 votos
La desviación estándar no es "errónea". Lo que es menos preciso es tratar como normales cosas que no lo son; las proporciones fuera de un número determinado de desviaciones estándar que implica la normalidad no siempre serán precisas para otras distribuciones. Para las distribuciones continuas unimodales, cerca de 2 desviaciones estándar los intervalos de dos lados suelen ser bastante razonables, pero más lejos las probabilidades de la cola pueden tener errores relativos muy altos.
0 votos
También podría preguntar si valor medio es erróneo. Para una tirada [1...6] el valor medio o promedio o expenctancy es 3,5, mientras que nunca se puede sacar un 3,5.