7 votos

¿Distribución normal o no?

Soy un novato aquí. Mi pregunta es la siguiente.

¿Se distribuye normalmente el siguiente conjunto de valores? 26, 33, 65, 28, 34, 55, 25, 44, 50, 36, 26, 37, 43, 62, 35, 38, 45, 32, 28, 34

Los valores anteriores proceden del siguiente enlace https://www.mathsisfun.com/data/standard-normal-distribution.html

A continuación, calculan la media y la desviación estándar y las puntuaciones z correspondientes, suponiendo que se distribuyen normalmente.

Sin embargo, al trazar los valores en un histograma con Excel, obtengo el siguiente gráfico (imagen adjunta) que muestra una asimetría positiva y sabemos que un conjunto de observaciones con distribución normal no tiene ninguna asimetría, es decir, es perfectamente simétrico.

¿Es necesario transformar el conjunto de datos en valores normalmente distribuidos antes de calcular la media, la desviación estándar y las puntuaciones z? ...ya que en situaciones del mundo real, los conjuntos de datos pueden no estar distribuidos normalmente, entonces cómo hacemos para realizar pruebas estadísticas con ellos. enter image description here

4 votos

Tenga en cuenta que su figura muestra un gráfico de barras, no un histograma.

0 votos

13voto

AdamSane Puntos 1825

¿Se distribuye normalmente el siguiente conjunto de valores? 26, 33, 65, 28, 34, 55, 25, 44, 50, 36, 26, 37, 43, 62, 35, 38, 45, 32, 28, 34

Claramente no; son números enteros.

[Más propiamente, no es un conjunto de valores observados que se distribuye normalmente (la ECDF de un conjunto de $n$ Los valores conocidos son discretos, los propios valores están acotados, etc.); la normalidad es un atributo de una distribución poblacional de la que se podría haber extraído una muestra observada. Pero no en este caso].

Sin embargo, aunque a menudo está claro que no podemos tener una muestra de una distribución normal por una u otra razón, rara vez es interesante preguntarse si la muestra procede de una distribución normal. Una pregunta más relevante es si podría ser una aproximación adecuada -- pero para responder a esa pregunta necesitas saber más sobre lo que estás haciendo, qué impacto podría tener la no normalidad en ella, y cuál podría ser tu tolerancia a ese impacto (o la tolerancia de tu audiencia, quizás).

(Una cosa que vale la pena señalar acerca de la forma se puede ver desde un QQ-plot - o cualquier número de otras visualizaciones, dependiendo de lo que usted está acostumbrado a utilizar para investigar la forma de distribución. Debe mostrar una visualización adecuada e interpretarla. La pantalla que se muestra - que es no un histograma a pesar de estar etiquetado como tal -- no es realmente adecuado, ya que disfraza los vacíos relativos de los datos. Parece estar tratando los valores del eje x como un conjunto de etiquetas de categorías ordenadas en lugar de algo donde el número indica la posición).

qqplot of data
El gráfico Q-Q de los datos indica la asimetría

Sabemos que un conjunto de observaciones con distribución normal no tiene ninguna asimetría

Seguro que no lo sé; de hecho, sé que es falso un muestra de una distribución normal puede estar ciertamente algo sesgada, sólo por la variación aleatoria. Es la población la que no tiene ninguna asimetría.

Pero tu conclusión -que los datos indican asimetría- es correcta, sólo que es mucho más difícil de ver en ese gráfico de tu pregunta.

enter image description here

Aquí hay un gráfico de puntos, que hace un mejor trabajo que el gráfico de barras. Un histograma real debería ser adecuado. (Si hubiera más datos, buscaría otra cosa -- con barras delgadas separadas que representen la frecuencia relativa, como tiene tu pantalla, pero con la posición x representando los valores, similar a un histograma. En R se obtiene esto con plot(table(x)) pero para muestras muy pequeñas como ésta, con pocos valores repetidos, prefiero el dotplot).

¿Es necesario transformar el conjunto de datos en valores de distribución normal antes de calcular la media, la desviación estándar y las puntuaciones z?

¿Qué podrías concluir de la media (etc) de los datos transformados?

...ya que en situaciones del mundo real, los conjuntos de datos pueden no estar distribuidos normalmente

En situaciones del mundo real, no hay distribuciones normales, excepto en algunas situaciones especiales.

Entonces, ¿cómo podemos realizar pruebas estadísticas con ellos?

  1. No todas las pruebas asumen la normalidad

  2. Incluso para los que lo hacen, la suposición de normalidad no siempre es muy importante (a veces puede importar sólo un poco, a veces puede importar mucho - puede depender de la prueba y del tamaño de la muestra).

  3. Con frecuencia, la transformación no es lo primero que se debe pensar en hacer. Primero hay que prestar atención a las preguntas que hay que hacer a los datos (¿qué hay que averiguar?). Entonces podrá preocuparse por las formas adecuadas de hacerlo. En puede implican una transformación, pero es mucho mejor que impliquen otra cosa.

¿Qué le interesa averiguar con estos datos? Si no lo sabes, ¿por qué transformarlos primero? Puede que no tenga ningún valor para responder a las preguntas de interés.

13voto

Dipstick Puntos 4869

Por dos razones, has elegido el tipo de gráfico equivocado para visualizar tu muestra. En primer lugar, supones que tus datos son continuos, por lo que no tiene sentido contar los valores distintos. En segundo lugar, su muestra es muy pequeña, por lo que incluso con números discretos, en la mayoría de los casos se pueden esperar pequeños recuentos por valor que resultan con un gráfico de barras plano.

Recordemos que para una variable aleatoria continua $\Pr(X=x)=0$ Así que asumiendo que estamos hablando de una variable aleatoria continua, no deberíamos esperar que diferentes valores aparezcan en la muestra varias veces, por lo que contar sus ocurrencias es engañoso. Por eso, para las variables aleatorias continuas utilizamos densidades de probabilidad es decir, las probabilidades "por pie". En lugar de contar cuántas veces ha aparecido cada uno de los números, hay que contar su número en intervalos . Por eso, para visualizar sus datos en lugar de utilizar gráfico de barras , debe utilizar histograma o gráfico de densidad .

Dado que su muestra es muy pequeña, el histograma podría ser engañoso porque hay un número limitado de barras que pueden utilizarse y un pequeño número de casos que caerán en cada una de las barras (sin importar si su variable es discreta o continua). En este caso, el gráfico de densidad (véase más abajo) podría ser más informativo.

enter image description here

Como contraejemplo, a continuación puede ver el gráfico de barras de los valores generados a partir de una distribución normal utilizando un generador de números pseudoaleatorios (barras negras) y el gráfico de densidad (línea roja).

enter image description here

Como puede ver, el barplot "sugiere" que estos datos perfectamente normales están distribuidos casi uniformemente...

En cuanto a si su muestra se distribuye normalmente, parece que los datos contienen números enteros en lugar de números reales, por lo que obviamente no son perfectamente normales. Además, la distribución está sesgada en lugar de ser simétrica. Sin embargo, en la mayoría de los casos esto es no un problema porque estamos interesados en aproximado normalidad. Ver: ¿Son las pruebas de normalidad "esencialmente inútiles"?

0 votos

En el primer párrafo das a entender que estos datos son continuos mientras que en el último párrafo dices que son discretos...

0 votos

@amoeba buen punto, espero que añadiendo la palabra "asumiendo" quede más claro ;)

0 votos

Sigo sin entender por qué empiezas diciendo que "has elegido el tipo de gráfico equivocado para visualizar tu muestra"; si los datos consisten en números enteros, es un gráfico perfectamente válido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X