21 votos

¿Cómo comprobar la distribución normal utilizando Excel para realizar una prueba t?

Quiero saber cómo comprobar la normalidad de un conjunto de datos en Excel, sólo para verificar que se cumplen los requisitos para utilizar una prueba t .

Para la cola derecha, ¿es apropiado calcular sólo una media y una desviación estándar, añadir 1, 2 y 3 desviaciones estándar de la media para crear un rango y luego compararlo con el normal 68/95/99.7 para la distribución normal estándar después de usar la función norm.dist en excel para probar cada valor de desviación estándar.

¿O hay una mejor manera de comprobar la normalidad?

0 votos

15voto

jldugger Puntos 7490

La idea es correcta. Esto puede hacerse de forma sistemática, exhaustiva y con cálculos relativamente sencillos. Un gráfico de los resultados se llama gráfico de probabilidad normal (o a veces un gráfico P-P). En él se puede ver mucho más detalles de los que aparecen en otras representaciones gráficas, especialmente histogramas Y con un poco de práctica puede incluso aprender a determinar formas de reexpresar sus datos para hacerlos más cercanos a la normalidad en situaciones en las que esto se justifique.

He aquí un ejemplo:

Spreadsheet with probability plot

Los datos están en la columna A (y llamado Data ). El resto es todo cálculo, aunque se puede controlar el valor de "rango de bisagra" utilizado para ajustar una línea de referencia al gráfico.

Este gráfico es un diagrama de dispersión en el que se comparan los datos con los valores que obtendrían los números extraídos independientemente de una distribución normal estándar. Cuando los puntos se alinean a lo largo de la diagonal, se acercan a la Normal; las desviaciones horizontales (a lo largo del eje de los datos) indican desviaciones de la normalidad. En este ejemplo, los puntos se acercan notablemente a la línea de referencia; la mayor desviación se produce en el valor más alto, que es de aproximadamente $1.5$ unidades a la izquierda de la línea. De este modo, vemos a simple vista que estos datos se aproximan mucho a la distribución normal, pero quizá tengan una cola derecha ligeramente "ligera". Esto está perfectamente bien para aplicar una prueba t.

Los valores de comparación en el eje vertical se calculan en dos pasos. En primer lugar, cada valor de los datos se clasifica de $1$ a través de $n$ La cantidad de datos (mostrados en el Count campo en la celda F2 ). Estos se convierten proporcionalmente en valores en el rango $0$ a $1$ . Una buena fórmula para utilizar es $\left(\text{rank}-1/6\right)/\left(n+2/3\right).$ (Ver http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm para saber de dónde viene eso). A continuación, se convierten en valores normales estándar a través de la función NormSInv función. Estos valores aparecen en el Normal score columna. El gráfico de la derecha es un gráfico de dispersión XY de Normal Score contra los datos. (En algunas referencias verás la transposición de este gráfico, que quizás sea más natural, pero Excel prefiere colocar la columna más a la izquierda en el eje horizontal y la columna más a la derecha en el eje vertical, así que he dejado que haga lo que prefiera).

Spreadsheet: normal score calculation

(Como puede ver, he simulado estos datos con extracciones aleatorias independientes de una distribución normal con media $5$ y la desviación estándar $2$ . Por lo tanto, no es de extrañar que el gráfico de probabilidad tenga un aspecto tan agradable). En realidad, sólo hay que escribir dos fórmulas, que se propagan hacia abajo para que coincidan con los datos: aparecen en las celdas B2:C2 y se basan en el Count valor calculado en la celda F2 . Eso es realmente todo lo que hay, aparte de la trama.

El resto de esta hoja no es necesario, pero es útil para juzgar el gráfico: proporciona una estimación robusta de una línea de referencia. Esto se hace eligiendo dos puntos igualmente alejados de la izquierda y la derecha del gráfico y conectándolos con una línea. En el ejemplo, estos puntos son el tercero más bajo y el tercero más alto, determinados por el $3$ en el Hinge Rank celda, F3 . Además, su pendiente e intercepción son estimaciones robustas de la desviación estándar y la media de los datos, respectivamente.

Para trazar la línea de referencia, se calculan dos puntos extremos y se añaden al gráfico: su cálculo se realiza en las columnas I:J , etiquetado X y Y .

Spreadsheet: reference line calculation

0 votos

Para las fórmulas de la Col B, ¿podría explicar la razón de sumar 1 y dividir por 6 y 3 ("+ 1/6" y el "+ 1/3")? ¿Hay alguna razón para dividir por 6 en la celda del rango de la bisagra?

0 votos

@Michael Buenas preguntas. $1/6$ es una forma sencilla y conocida de establecer puntos de trazado de probabilidades. Recuerdo que John Tukey lo recomendaba en su libro, EDA . La fórmula del rango de la bisagra es misteriosa: debería haber explicado que estoy eligiendo dos puntos igualmente alejados de los extremos en el $100\times 1/6$ y $100\times 5/6$ percentiles. Cualquier multiplicador sustancialmente mayor que $0$ y menos de $1/2$ funcionaría. $1/4$ es popular: corresponde a los cuartiles. También lo es $0.16$ correspondiente a 1 DS para una distribución normal.

0 votos

La fórmula (rango + 1/6) / (n+1/3) no parece ser simétrica como podríamos anticipar. Por ejemplo, con la observación media de 3 el rango es 2 y esto sugeriría un percentil correspondiente de 0,65 en lugar de lo que parecería natural tomar para la observación media (0,5). ¿Me he perdido algo obvio? [ He visto que Tukey utiliza algunas fórmulas diferentes en distintos lugares, incluyendo (i-1/3)/(n+1/3). La fórmula de tu enlace se ajusta al esquema común (i-a)/(n+1-2a), pero la fórmula que das en tu respuesta no lo hace].

5voto

Eric Davis Puntos 1542

Podrías trazar un histograma utilizando el paquete de herramientas de análisis de datos en Excel . Los enfoques gráficos tienen más probabilidades de comunicar el grado de no normalidad, que suele ser más relevante para la comprobación de supuestos (véase esta discusión sobre la normalidad ).

El paquete de herramientas de análisis de datos en Excel también le permitirá asimetría y curtosis si pide estadísticas descriptivas y elige la opción "estadísticas de resumen". Por ejemplo, podría considerar que los valores de asimetría superiores a más o menos uno son una forma de no normalidad sustantiva.

Dicho esto, el supuesto de las pruebas t es que los residuos se distribuyen normalmente y no la variable. Además, también son bastante robustas, de modo que incluso con cantidades bastante grandes de no normalidad, los valores p siguen siendo bastante válidos.

4voto

Nate Eldredge Puntos 146

Esta pregunta también roza la teoría estadística: comprobar la normalidad con datos limitados puede ser cuestionable (aunque todos lo hemos hecho alguna vez).

Como alternativa, se pueden observar los coeficientes de curtosis y asimetría. En Hahn y Shapiro: Modelos estadísticos en ingeniería se proporcionan algunos antecedentes sobre las propiedades Beta1 y Beta2 (páginas 42 a 49) y la Fig 6-1 de la página 197. En Wikipedia se puede encontrar más información sobre la teoría de la distribución de Pearson.

Básicamente hay que calcular las llamadas propiedades Beta1 y Beta2. Un Beta1 = 0 y un Beta2 = 3 sugieren que el conjunto de datos se aproxima a la normalidad. Se trata de una prueba aproximada, pero con datos limitados se podría argumentar que cualquier prueba podría considerarse aproximada.

Beta1 está relacionado con los momentos 2 y 3, o la varianza y asimetría respectivamente. En Excel, son VAR y SKEW. Donde ... es su matriz de datos, la fórmula es:

Beta1 = SKEW(...)^2/VAR(...)^3

Beta2 está relacionado con los momentos 2 y 4, o la varianza y curtosis respectivamente. En Excel, son VAR y KURT. Donde ... es su matriz de datos, la fórmula es:

Beta2 = KURT(...)/VAR(...)^2

A continuación, puede comprobarlos con los valores de 0 y 3, respectivamente. Esto tiene la ventaja de identificar potencialmente otras distribuciones (incluyendo las distribuciones de Pearson I, I(U), I(J), II, II(U), III, IV, V, VI, VII). Por ejemplo, muchas de las distribuciones comúnmente utilizadas, como la Uniforme, la Normal, la t de Student, la Beta, la Gamma, la Exponencial y la Log-Normal, pueden indicarse a partir de estas propiedades:

Where:   0 <= Beta1 <= 4
         1 <= Beta2 <= 10 

Uniform:        [0,1.8]                                 [point]
Exponential:    [4,9]                                   [point] 
Normal:         [0,3]                                   [point]
Students-t:     (0,3) to [0,10]                         [line]
Lognormal:      (0,3) to [3.6,10]                       [line]
Gamma:          (0,3) to (4,9)                          [line]
Beta:           (0,3) to (4,9), (0,1.8) to (4,9)        [area]
Beta J:         (0,1.8) to (4,9), (0,1.8) to [4,6*]     [area]
Beta U:         (0,1.8) to (4,6), [0,1] to [4.5)        [area]
Impossible:     (0,1) to (4.5), (0,1) to (4,1]          [area]
Undefined:      (0,3) to (3.6,10), (0,10) to (3.6,10)   [area]

Values of Beta1, Beta2 where brackets mean:

[ ] : includes (closed)
( ) : approaches but does not include (open)
 *  : approximate 

Se ilustran en la figura 6-1 de Hahn y Shapiro.

Es cierto que se trata de una prueba muy aproximada (con algunos problemas), pero puede considerarse como una comprobación preliminar antes de pasar a un método más riguroso.

También hay mecanismos de ajuste para el cálculo de Beta1 y Beta2 cuando los datos son limitados - pero eso va más allá de este post.

0 votos

Gran parte de este material puede funcionar bien para grandes conjuntos de datos y estoy de acuerdo con su evaluación inicial de que las pruebas de normalidad pueden ser limitadas o cuestionables con pequeños conjuntos de datos. Pero teniendo en cuenta la enorme variabilidad de la asimetría y la curtosis, parece que cualquier esfuerzo por identificar el tipo de distribución subyacente basándose en estas estadísticas sería aún más cuestionable y menos seguro. En consecuencia, ¿no sería este enfoque (en el mejor de los casos) engañoso incluso como comprobación preliminar?

1 votos

Tal vez sea mejor matizar el método: Hahn y Shapiro (a los que se ha hecho referencia anteriormente) aconsejan que se tenga cuidado, especialmente cuando el tamaño de la muestra es inferior a 200, y recomiendan que se realice una verificación adicional, como una tabla de frecuencias que compare la distribución ajustada con los datos reales. Pero, en mi opinión, es un método útil que puede sugerir donde los datos podrían estar dentro de un espectro de posibilidades. Lo he utilizado en conjuntos de datos no inferiores a unos 3.000 y lo he incorporado a programas de simulación por ordenador en los que ha resultado útil.

0 votos

Puedo ver que tu método da información útil con conjuntos de datos de 3000 o más. Sin embargo, entonces no es necesario realizar pruebas de distribución para evaluar la aplicabilidad de una prueba t de la media.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X