¿Se distribuye normalmente el siguiente conjunto de valores? 26, 33, 65, 28, 34, 55, 25, 44, 50, 36, 26, 37, 43, 62, 35, 38, 45, 32, 28, 34
Claramente no; son números enteros.
[Más propiamente, no es un conjunto de valores observados que se distribuye normalmente (la ECDF de un conjunto de $n$ Los valores conocidos son discretos, los propios valores están acotados, etc.); la normalidad es un atributo de una distribución poblacional de la que se podría haber extraído una muestra observada. Pero no en este caso].
Sin embargo, aunque a menudo está claro que no podemos tener una muestra de una distribución normal por una u otra razón, rara vez es interesante preguntarse si la muestra procede de una distribución normal. Una pregunta más relevante es si podría ser una aproximación adecuada -- pero para responder a esa pregunta necesitas saber más sobre lo que estás haciendo, qué impacto podría tener la no normalidad en ella, y cuál podría ser tu tolerancia a ese impacto (o la tolerancia de tu audiencia, quizás).
(Una cosa que vale la pena señalar acerca de la forma se puede ver desde un QQ-plot - o cualquier número de otras visualizaciones, dependiendo de lo que usted está acostumbrado a utilizar para investigar la forma de distribución. Debe mostrar una visualización adecuada e interpretarla. La pantalla que se muestra - que es no un histograma a pesar de estar etiquetado como tal -- no es realmente adecuado, ya que disfraza los vacíos relativos de los datos. Parece estar tratando los valores del eje x como un conjunto de etiquetas de categorías ordenadas en lugar de algo donde el número indica la posición).
El gráfico Q-Q de los datos indica la asimetría
Sabemos que un conjunto de observaciones con distribución normal no tiene ninguna asimetría
Seguro que no lo sé; de hecho, sé que es falso un muestra de una distribución normal puede estar ciertamente algo sesgada, sólo por la variación aleatoria. Es la población la que no tiene ninguna asimetría.
Pero tu conclusión -que los datos indican asimetría- es correcta, sólo que es mucho más difícil de ver en ese gráfico de tu pregunta.
Aquí hay un gráfico de puntos, que hace un mejor trabajo que el gráfico de barras. Un histograma real debería ser adecuado. (Si hubiera más datos, buscaría otra cosa -- con barras delgadas separadas que representen la frecuencia relativa, como tiene tu pantalla, pero con la posición x representando los valores, similar a un histograma. En R se obtiene esto con plot(table(x))
pero para muestras muy pequeñas como ésta, con pocos valores repetidos, prefiero el dotplot).
¿Es necesario transformar el conjunto de datos en valores de distribución normal antes de calcular la media, la desviación estándar y las puntuaciones z?
¿Qué podrías concluir de la media (etc) de los datos transformados?
...ya que en situaciones del mundo real, los conjuntos de datos pueden no estar distribuidos normalmente
En situaciones del mundo real, no hay distribuciones normales, excepto en algunas situaciones especiales.
Entonces, ¿cómo podemos realizar pruebas estadísticas con ellos?
-
No todas las pruebas asumen la normalidad
-
Incluso para los que lo hacen, la suposición de normalidad no siempre es muy importante (a veces puede importar sólo un poco, a veces puede importar mucho - puede depender de la prueba y del tamaño de la muestra).
-
Con frecuencia, la transformación no es lo primero que se debe pensar en hacer. Primero hay que prestar atención a las preguntas que hay que hacer a los datos (¿qué hay que averiguar?). Entonces podrá preocuparse por las formas adecuadas de hacerlo. En puede implican una transformación, pero es mucho mejor que impliquen otra cosa.
¿Qué le interesa averiguar con estos datos? Si no lo sabes, ¿por qué transformarlos primero? Puede que no tenga ningún valor para responder a las preguntas de interés.
4 votos
Tenga en cuenta que su figura muestra un gráfico de barras, no un histograma.
0 votos
es.wikipedia.org/wiki/Shapiro%E2%80%93Wilk_test