5 votos

¿Qué hacer con la no normalidad y las varianzas heterogéneas en el ANOVA de dos vías cuando las transformaciones no funcionan?

Estoy realizando un ANOVA de dos vías en el que mis dos factores son el sexo y la cohorte. Tengo datos de dos cohortes de sujetos, con cada cohorte compuesta por hombres y mujeres que fueron medidos en una variable de respuesta. (Debido a algunas exclusiones, hay tamaños de muestra desiguales entre los grupos).

Antes de ejecutar el ANOVA, tengo entendido que debo comprobar la normalidad y la homogeneidad de la varianza (HOV) de los datos.

  1. ¿Pruebo la normalidad y el HOV en cada uno de los cuatro grupos por separado? (es decir, ¿probar la normalidad en los datos de la cohorte 1 de hombres solamente, luego probar la normalidad en los datos de la cohorte 1 de mujeres solamente, luego la cohorte 2 de hombres, luego la cohorte 2 de mujeres?)

  2. ¿Se aplica la hipótesis de HOV a los cuatro grupos, es decir, la hipótesis nula es "Varianza masculina de la cohorte 1 = Varianza femenina de la cohorte 1 = Varianza masculina de la cohorte 2 = Varianza femenina de la cohorte 2?"

  3. Utilicé la prueba de Shapiro-Wilk para la normalidad en cada grupo, y la prueba de Levene de igualdad de varianzas de error. Lamentablemente, en todos los grupos, los datos son muy poco normales y dan valores muy significativos para la prueba de Levene. He probado varias transformaciones (raíz cuadrada, logaritmo, logaritmo natural, cuadrado) pero nada ha funcionado para normalizar los datos hasta ahora.

Me pregunto cómo proceder. He leído que, a diferencia de la prueba de Welch para un ANOVA de una vía, no existe un buen equivalente de ANOVA de dos vías para datos no normales con varianzas heterogéneas.

¿Hay alguna otra transformación que pueda funcionar? Si no es así, ¿la mejor opción sería simplemente ejecutar el ANOVA, pero mencionar que se violaron los supuestos que pueden afectar a los resultados de la prueba?


EDITAR (para añadir más información):

Para aclarar, el principal problema es la falta de homogeneidad de la varianza para el ANOVA de dos vías. Anteriormente había escrito que las transformaciones no funcionaban para normalizar los datos, pero me equivoqué (¡mis disculpas!). Los datos estaban muy sesgados positivamente (la curtosis no era realmente un problema), y la transformación de la raíz cuadrada normalizó con éxito la distribución. Sin embargo, todavía tengo varianzas heterogéneas. Me pregunto si hay algo que pueda hacer para corregir esto, o si es aceptable seguir adelante con el ANOVA, y mencionar explícitamente las varianzas heterogéneas en la descripción de mis métodos.

EDIT 2 (imágenes añadidas):

Boxplots de datos no transformados:

enter image description here

enter image description here

EDIT 3 (datos brutos añadidos):

**Cohort 1 males (n=12)**: 
0.476
0.84
1.419
0.4295
0.083
2.9595
4.20125
1.6605
3.493
5.57225
0.076
3.4585

**Cohort 1 females (n=12)**: 
4.548333
4.591
3.138
2.699
6.622
6.8795
5.5925
1.6715
4.92775
6.68525
4.25775
8.677

**Cohort 2 males (n=11)**: 
7.9645
16.252
15.30175
8.66325
15.6935
16.214
4.056
8.316
17.95725
13.644
15.76475

**Cohort 2 females (n=11)**:
11.2865
22.22775
18.00466667
12.80925
16.15425
14.88133333
12.0895
16.5335
17.68925
15.00425
12.149

0 votos

Lo ideal es que nos muestre sus datos si el conjunto de datos no es demasiado grande; sin duda, se necesita información más precisa sobre los datos, por ejemplo, gráficos de puntos, gráficos de caja o histogramas de los cuatro grupos, con el mínimo, el máximo, la media, la DE, la mediana, el IQR. Encontrar una transformación adecuada no es disparar en la oscuridad: en particular, si el logaritmo es un candidato serio, entonces el cuadrado no puede serlo, y viceversa, ya que tienen efectos completamente opuestos. Tenga en cuenta que el logaritmo (base 10, presumiblemente) y el logaritmo natural son idéntico en sus efectos sobre la no normalidad.o varianzas desiguales.

0 votos

En 2) observe que la hipótesis nula se refiere a las medias, no a las varianzas. Pero, en efecto, en el caso más sencillo es una supuesto (en la terminología habitual) que las cuatro variantes son iguales. (Estas técnicas serían un poco más fáciles de entender si en lugar de suposiciones se hablara de condiciones ideales .)

0 votos

No has seguido la mayoría de mis sugerencias. En una suposición salvaje, una transformación más fuerte como la logarítmica podría hacer más para estabilizar las varianzas. Aún así, preferiría ver los datos o al menos los gráficos para comentar.

5voto

dan90266 Puntos 609

Cuando uno no conoce la transformación de antemano, puede esperar tener suerte probando una transformación además de la transformación de identidad (dejando las cosas como están). Probar un total de dos transformaciones probablemente no sea muy perjudicial para la inferencia estadística. Pero, en general, no sabemos lo suficiente sobre la transformación y todo esto aporta arbitrariedad al análisis e incertidumbre sobre cómo controlar el error de tipo I y la cobertura del intervalo de confianza. Por estas y otras razones estoy recomendando cada vez más que los modelos semiparamétricos sean opciones estándar. Para este problema, el modelo logístico ordinal de probabilidades proporcionales (PO), sin agrupación de $Y$ es una buena opción. Se trata de una generalización de las pruebas de Wilcoxon-Mann-Whitney-Kruskal-Wallis. El modelo PO es invariable por transformación, excepto cuando se utiliza para estimar $E(Y|X)$ . Es robusto y competitivo con los métodos de la teoría normal, incluso si se mantiene la normalidad. La R rms paquete orm maneja eficientemente los modelos ordinales para los continuos $Y$ .

A continuación se presenta un análisis ordinal utilizando el programa R rms paquete. He incluido una interacción entre la cohorte y el sexo. Nuevo se añade un gráfico de la distribución condicional subyacente estimada de y.

require(rms)
d1 <- data.frame(cohort='one', sex='male', y=c(.476,
.84,
1.419,
0.4295,
0.083,
2.9595,
4.20125,
1.6605,
3.493,
5.57225,
0.076,
3.4585))
d2 <- data.frame(cohort='one', sex='female', y=c(4.548333,
4.591,
3.138,
2.699,
6.622,
6.8795,
5.5925,
1.6715,
4.92775,
6.68525,
4.25775,
8.677))
d3 <- data.frame(cohort='two', sex='male', y=c(7.9645,
16.252,
15.30175,
8.66325,
15.6935,
16.214,
4.056,
8.316,
17.95725,
13.644,
15.76475))
d4 <- data.frame(cohort='two', sex='female', y=c(11.2865,
22.22775,
18.00466667,
12.80925,
16.15425,
14.88133333,
12.0895,
16.5335,
17.68925,
15.00425,
12.149))
d <- rbind(d1, d2, d3, d4)
dd <- datadist(d); options(datadist='dd')

# Fit the default ordinal model (prop. odds)
f <- orm(y ~ cohort * sex, data=d)
f

Logistic (Proportional Odds) Ordinal Regression Model

orm(formula = y ~ cohort * sex, data = d)
                      Model Likelihood          Discrimination          Rank Discrim.    
                         Ratio Test                 Indexes                Indexes       
Obs            46    LR chi2      58.46    R2                  0.720    rho     0.854    
Unique Y       46    d.f.             3    g                   3.502                     
Median Y  6.68525    Pr(> chi2) <0.0001    gr                 33.176                     
max |deriv| 0.002    Score chi2   52.40    |Pr(Y>=median)-0.5| 0.410                     
                     Pr(> chi2) <0.0001                                                  

                        Coef    S.E.   Wald Z Pr(>|Z|)
cohort=two               6.8607 1.3333  5.15  <0.0001 
sex=female               2.6922 0.8680  3.10  0.0019  
cohort=two * sex=female -1.8481 1.1579 -1.60  0.1105  

anova(f)
            Wald Statistics          Response: y 

 Factor                                      Chi-Square d.f. P     
 cohort  (Factor+Higher Order Factors)       28.92      2    <.0001
  All Interactions                            2.55      1    0.1105
 sex  (Factor+Higher Order Factors)          10.82      2    0.0045
  All Interactions                            2.55      1    0.1105
 cohort * sex  (Factor+Higher Order Factors)  2.55      1    0.1105
 TOTAL                                       32.59      3    <.0001

# Show intercepts as a function of y to estimate the underlying
# conditional distribution.  Result: more uniform than Gaussian
alphas <- coef(f)[1 : num.intercepts(f)]
yunique <- f$yunique[-1]
par(mfrow=c(1,2))
plot(yunique, alphas)
# Compare to distribution of residuals
plot(ecdf(resid(ols(y ~ cohort * sex, data=d))), main='')

Intercepts vs. y and residuals from OLS

M <- Mean(f)
# Confidence intervals for means are approximate
# Confidence intervals for odds ratios or exceedance probabilities
# are correct for ordinal models
Predict(f, cohort, sex, fun=M)

  cohort    sex      yhat      lower     upper
1    one   male  2.051195  0.7412913  4.029275
2    two   male 13.089852  8.7310555 17.054696
3    one female  5.261155  3.7446728  7.000745
4    two female 14.884409 10.3247910 18.616770

Response variable (y):  

Limits are 0.95 confidence limits

# Ordinary sample means with t- confidence limits:
with(d, summarize(y, llist(cohort, sex), smean.cl.normal))
  cohort    sex         y      Lower     Upper
2    one   male  2.055708  0.8934179  3.217999
1    one female  5.024132  3.7586617  6.289602
4    two   male 12.711545  9.6236006 15.799490
3    two female 15.348114 13.1603031 17.535924

1 votos

+1 Frank. Estoy totalmente de acuerdo. Este es, con mucho, el enfoque más directo. Iterar a través de estas transformaciones con la esperanza de conseguir la "correcta", sin pensar cuidadosamente en el impacto de los errores, me pone nervioso. Este enfoque lo remedia.

0 votos

Este es, sin duda, un enfoque intrigante. Pero podría decirse que resuelve las cuestiones relativas a la escala de medición ignorándolas. Desde algunos puntos de vista, eso no es una debilidad. Me pregunto hasta qué punto sus conclusiones se ajustan a la ciencia de la que surgen estos datos, sean los que sean (sólo "RV" anónimos, por lo que se nos dice, aparte de que hay dos géneros).

0 votos

Estoy confundido (probablemente porque no estoy familiarizado con estos modelos): ¿la regresión logística ordinal no trata con una variable dependiente ordinal? ¿Qué sería en este caso? Aquí la variable dependiente ("RV") es continua.

4voto

Nick Cox Puntos 22819

La posición de equilibrio en este caso no es en la que el muelle no está estirado, en realidad está estirado por un $\Delta x$ cantidad con $F_{spring}(0) = k\Delta x$ .

Así, la fuerza del muelle en el punto A es un poco menor que en el punto -A, ya que $ F_{spring}(A) = -k(A-\Delta x)$ y $ F_{spring}(-A) = k(A+\Delta x)$ por lo que compensa la fuerza "extra".

Tienes que notar que en esta posición de equilibrio

$F_{spring} - mg = 0$ ,

así que

$F_{spring} = k\Delta x = mg$

con

$\Delta x = mg/k$ .

Sustituyendo en

$ F_{net}(A) = F_{spring}(A) - mg = -k(A-\Delta x) - mg = -k(A - \frac{mg}{k}) - mg = -kA $

lo mismo ocurre con la posición -A

$ F_{net}(-A) = F_{spring}(-A) - mg = -k(-A-\Delta x) - mg = -k(-A-\frac{mg}{k}) - mg = kA $

0 votos

¿Los valores predichos utilizando el GLM que incluye el término de interacción deberían ser simplemente iguales a las medias de los grupos? O espere, ¿sólo es cierto para el enlace lineal? (Sin embargo, sus números parecen ser iguales a las medias de los grupos en este caso). Así que, para aclararlo, lo que usted defiende aquí no es exactamente la transformación de la raíz seguida de un ANOVA, sino el MLG con enlace de la raíz.

0 votos

Efectivamente, pero es una comparación relevante con el resultado de Frank. No doy el aparato completo de valores P, etc.

0 votos

GLM con enlace raíz: efectivamente, eso está explícito en mi respuesta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X