20 votos

¿Por qué importan los supuestos del ANOVA (igualdad de la varianza, normalidad de los residuos)?

Cuando se ejecuta un ANOVA se nos dice que deben estar presentes ciertos supuestos de la prueba para que sea aplicable a los datos. Nunca entendí la razón de por qué los siguientes supuestos eran necesarios para que la prueba funcionara:

  1. La varianza de su variable dependiente (residual) debe ser igual en cada celda del diseño

  2. Su variable dependiente (residuos) debería estar distribuida de forma aproximadamente normal para cada célula del diseño

Entiendo que hay un poco de área gris en cuanto a si estas suposiciones deben cumplirse, pero por el bien del argumento, si estas suposiciones no se cumplieran en absoluto en un determinado conjunto de datos, ¿cuál sería el problema de usar un ANOVA?

12voto

AdamSane Puntos 1825

Los supuestos son importantes en la medida en que afectan a las propiedades de las pruebas de hipótesis (e intervalos) que podría utilizar, cuyas propiedades de distribución bajo el nulo se calculan basándose en esos supuestos.

En particular, para las pruebas de hipótesis, las cosas que podrían preocuparnos son cuán lejos del verdadero nivel de significación podría estar de lo que queremos que sea, y si el poder contra las alternativas de interés es bueno.

En relación con los supuestos sobre los que pregunta:

1. Igualdad de la varianza

La varianza de su variable dependiente (residual) debe ser igual en cada celda del diseño

Esto puede ciertamente impactar en el nivel de significación, al menos cuando los tamaños de las muestras son desiguales.

(Edit:) Un ANOVA F-statistic es la relación de dos estimaciones de varianza (la división y comparación de las varianzas es por lo que se llama análisis de la varianza ). El denominador es una estimación de la varianza del error supuestamente común a todas las células (calculado a partir de los residuos), mientras que el numerador, basado en la variación de las medias del grupo, tendrá dos componentes, uno a partir de la variación de las medias de la población y otro debido a la varianza del error. Si el nulo es verdadero, las dos varianzas que se están estimando serán las mismas (dos estimaciones de la varianza del error común); este valor común pero desconocido se anula (porque tomamos un ratio), dejando una estadística F que sólo depende de las distribuciones de los errores (que bajo los supuestos que podemos mostrar tiene una distribución F. (Comentarios similares se aplican a la prueba t que utilicé para la ilustración).

Hay un poco más de detalle en alguna de esa información en mi respuesta aquí ]

Sin embargo, aquí los dos población Las variaciones difieren entre las dos muestras de diferente tamaño. Consideremos el denominador (de la estadística F en ANOVA y de la estadística t en una prueba t) - está compuesto de dos estimaciones de varianza diferentes, no una, por lo que no tendrá la distribución "correcta" (un chi-cuadrado escalado para la F y su raíz cuadrada en el caso de una t - tanto la forma como la escala son cuestiones).

Por consiguiente, la estadística F o la estadística T ya no tendrán la distribución F o T, pero la forma en que se ve afectada es diferente dependiendo de si la muestra grande o la pequeña se extrajo de la población con la mayor varianza. Esto a su vez afecta a la distribución de los valores p.

Bajo el nulo (es decir, cuando los medios de la población son iguales), la distribución de los valores p debe ser uniforme. Sin embargo, si las varianzas y los tamaños de la muestra son desiguales pero las medias son iguales (por lo que no queremos rechazar el nulo), los valores p no están distribuidos uniformemente. Hice una pequeña simulación para mostrarte lo que pasa. En este caso, usé sólo 2 grupos, así que el ANOVA es equivalente a una prueba t de dos muestras con el supuesto de la misma varianza. Así que simulé muestras de dos distribuciones normales, una con una desviación estándar de diez veces más grande que la otra, pero con los mismos medios.

Para la trama del lado izquierdo, la más grande ( población ) la desviación estándar era para n=5 y la menor desviación estándar era para n=30. Para el gráfico del lado derecho la mayor desviación estándar fue para n=30 y la menor para n=5. Simulé cada una de ellas 10.000 veces y encontré el valor p cada vez. En cada caso quieren que el histograma sea completamente plano (rectangular), ya que esto significa que todas las pruebas realizadas a algún nivel de significación $ \alpha $ con realmente obtener esa tasa de error de tipo I. En particular es más importante que las partes más izquierdas del histograma se mantengan cerca de la línea gris:

Histograms of p-values for simulated samples

Como vemos, el gráfico de la izquierda (mayor varianza en la muestra más pequeña) el Los valores p tienden a ser muy pequeños - rechazaríamos la hipótesis nula muy a menudo (casi la mitad de las veces en este ejemplo) aunque la nula sea cierta. Es decir, nuestros niveles de significación son mucho mayores de lo que pedimos. En el diagrama de la derecha vemos que los valores p son en su mayoría grandes (y por lo tanto nuestro nivel de significación es mucho más pequeño de lo que pedimos) - de hecho, ni una vez de cada diez mil simulaciones rechazamos en el nivel del 5% (el valor p más pequeño aquí fue de 0,055). Esto puede no parecer tan malo, hasta que recordemos que también tendremos un nivel muy bajo de poder para ir con nuestro muy bajo nivel de significación].

Eso es toda una consecuencia. Por eso es una buena idea usar un test t de tipo Welch-Satterthwaite o ANOVA cuando no tenemos una buena razón para asumir que las variaciones serán casi iguales en comparación, apenas se ve afectado en estas situaciones (también simulé este caso; las dos distribuciones de los valores p simulados - que no he mostrado aquí - salieron bastante planas).

2. Distribución condicional de la respuesta (DV)

Su variable dependiente (residuos) debería estar distribuida de forma aproximadamente normal para cada célula del diseño

Esto es algo menos directamente crítico - para desviaciones moderadas de la normalidad, el nivel de significación no se ve tan afectado en muestras más grandes (¡aunque la potencia puede ser!).

He aquí un ejemplo, en el que los valores están distribuidos exponencialmente (con distribuciones y tamaños de muestra idénticos), en el que podemos ver que esta cuestión del nivel de significación es sustancial a pequeña escala $n$ pero reduciendo con grandes $n$ .

histograms of p-values when H0 is true but the distributions in each group are exponential

Vemos que a n=5 hay sustancialmente muy pocos valores p pequeños (el nivel de significación para una prueba del 5% sería aproximadamente la mitad de lo que debería ser), pero a n=50 el problema se reduce para una prueba del 5% en este caso el nivel de significación real es de alrededor del 4,5%.

Así que podríamos estar tentados a decir "bueno, está bien, si n es lo suficientemente grande como para que el nivel de significación esté bastante cerca", pero también podríamos estar lanzando una buena cantidad de poder. En particular, se sabe que la eficiencia relativa asintótica de la prueba t en relación con las alternativas ampliamente utilizadas puede llegar a 0. Esto significa que mejores opciones de prueba pueden obtener la misma potencia con una fracción cada vez más pequeña del tamaño de la muestra requerida para obtenerla con la prueba t. No se necesita nada fuera de lo normal para seguir necesitando más del doble de datos para tener la misma potencia con la t que la que se necesitaría con una prueba alternativa: colas moderadamente más pesadas de lo normal en la distribución de la población y muestras moderadamente grandes pueden ser suficientes para hacerlo.

(Otras opciones de distribución pueden hacer que el nivel de significación sea más alto de lo que debería ser, o sustancialmente más bajo de lo que vimos aquí).

10voto

Stefan Puntos 737

En resumen, ANOVA es añadiendo , cuadriculado y promediando residuos . Los residuos te dicen lo bien que tu modelo encaja en los datos. Para este ejemplo, usé el PlantGrowth conjunto de datos en R :

Resultados de un experimento para comparar los rendimientos (medidos por el peso seco de las plantas) obtenidos bajo un control y dos condiciones de tratamiento diferentes.

Esta primera trama muestra la gran media de los tres niveles de tratamiento:

enter image description here

Las líneas rojas son los residuos . Ahora, al cuadrar y sumar la longitud de esas líneas individuales, obtendrás un valor que te dice cuán bien la media (nuestro modelo) describe los datos. Un número pequeño, te dice que la media describe bien tus puntos de datos, un número mayor te dice que la media no describe tan bien tus datos. Este número se llama Suma total de cuadrados :

$SS_{total}= \sum (x_i- \bar {x}_{grand})^2$ donde $x_{i}$ representa el punto de datos individual y $ \bar {x}_{grand}$ la gran media a través del conjunto de datos.

Ahora haces lo mismo con los residuos de tu tratamiento ( Suma residual de los cuadrados que también se conoce como el ruido en los niveles de tratamiento):

enter image description here

Y la fórmula:

$SS_{residuals}= \sum (x_{ik}- \bar {x}_{k})^2$ donde $x_{ik}$ son los puntos de datos individuales $i$ en el $k$ número de niveles y $ \bar {x}_{k}$ la media de los niveles de tratamiento.

Por último, necesitamos determinar la señal en los datos, que se conoce como la Modelo de sumas de cuadrados que más tarde se utilizará para calcular si los medios de tratamiento son diferentes de la gran media:

enter image description here

Y la fórmula:

$SS_{model}= \sum n_{k}( \bar {x}_k- \bar {x}_{grand})^2$ donde $n_{k}$ es el tamaño de la muestra $n$ en tu $k$ número de niveles, y $ \bar {x}_k$ así como $ \bar {x}_{grand}$ la media dentro y a través de los niveles de tratamiento, respectivamente.

Ahora la desventaja con las sumas de los cuadrados es que se hacen más grandes a medida que aumenta el tamaño de la muestra. Para expresar esas sumas de cuadrados en relación con el número de observaciones del conjunto de datos, las divides por sus grados de libertad convirtiéndolas en varianzas. Así que después de cuadriculado y añadiendo los puntos de datos en los que estás ahora promediando que usan sus grados de libertad:

$df_{total}=(n-1)$

$df_{residual}=(n-k)$

$df_{model}=(k-1)$

donde $n$ es el número total de observaciones y $k$ el número de niveles de tratamiento.

Esto resulta en la Modelo Cuadrado Medio y el Cuadrado medio residual (ambas son variaciones), o la relación señal-ruido, que se conoce como el valor F:

$MS_{model}= \frac {SS_{model}}{df_{model}}$

$MS_{residual}= \frac {SS_{residual}}{df_{residual}}$

$F= \frac {MS_{model}}{MS_{residual}}$

El valor F describe la relación señal-ruido, o si los medios de tratamiento son diferentes de la gran media. El valor F se utiliza ahora para calcular los valores p y éstos decidirán si al menos una de las medias de tratamiento será significativamente diferente de la gran media o no.

Ahora espero que puedan ver que las suposiciones se basan en cálculos con residuos y por qué son importantes. Ya que nosotros añadiendo , cuadriculado y promediando residuos, debemos asegurarnos de que antes de hacerlo, los datos de esos grupos de tratamiento se comportan de manera similar o bien el valor F puede estar sesgado hasta cierto punto y las inferencias extraídas de este valor F pueden no ser válidas.

Editar: Añadí dos párrafos para abordar la pregunta 2 y 1 del PO más específicamente .

Supuesto de normalidad : La media (o valor esperado) se utiliza a menudo en las estadísticas para describir el centro de una distribución, sin embargo no es muy robusta y es fácilmente influenciable por los valores atípicos. La media es el modelo más simple que podemos ajustar a los datos. Dado que en el ANOVA utilizamos la media para calcular los residuos y las sumas de los cuadrados (véase las fórmulas anteriores), los datos deberían estar distribuidos de forma aproximadamente normal (supuesto de normalidad). Si no es así, la media puede no ser el modelo apropiado para los datos, ya que no nos daría una ubicación correcta del centro de la distribución de la muestra. En su lugar, una vez se podría utilizar la mediana, por ejemplo (véase los procedimientos de prueba no paramétricos).

Homogeneidad de la hipótesis de la varianza : Más tarde, cuando calculamos los cuadrados medios (modelo y residual), estamos reuniendo las sumas individuales de los cuadrados de los niveles de tratamiento y promediándolos (véase las fórmulas anteriores). Al agrupar y promediar estamos perdiendo la información de las variaciones individuales de los niveles de tratamiento y su contribución a los cuadrados medios. Por lo tanto, deberíamos tener aproximadamente la misma varianza entre todos los niveles de tratamiento para que la contribución a los promedios cuadrados sea similar. Si las varianzas entre esos niveles de tratamiento fueran diferentes, entonces los cuadrados medios resultantes y el valor F estarían sesgados e influirían en el cálculo de los valores p, haciendo cuestionables las inferencias extraídas de estos valores p (véase también el comentario de @whuber y la respuesta de @Glen_b).

Así es como lo veo por mí mismo. Puede que no sea 100% exacto (no soy un estadístico) pero me ayuda a entender por qué es importante satisfacer las suposiciones del ANOVA.

0voto

skan Puntos 201

ANOVA es sólo un método, calcula la prueba F de sus muestras y la compara con la distribución F. Necesitas algunas suposiciones para decidir qué quieres comparar y calcular los valores p.

Si no cumples con esas suposiciones podrías calcular otras cosas pero no será un ANOVA.

La distribución más útil es la normal (debido a la CLT), por eso es la más utilizada. Si tus datos no están distribuidos normalmente necesitas al menos saber cuál es su distribución para poder calcular algo.

La homo-sedasticidad es una suposición común también en el análisis de regresión, sólo facilita las cosas. Necesitamos algunas suposiciones para empezar.

Si no tienes homosexualidad puedes intentar transformar tus datos para conseguirlo.

El test ANOVA F es conocido por ser casi óptimo en el sentido de minimizar los errores de falsos negativos para una tasa fija de errores de falsos positivos

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X