Es este estadísticamente adecuada?
Bueno, te deja un montón sobre la mesa y se puede limitar sus opciones. Creo que para conseguir un mejor análisis que usted puede ser que desee considerar un rico marco de la $t$-prueba.
Cómo soy interpretación de su estudio es que tiene una muestra de los nativos y de los hablantes no nativos. Probablemente, usted desea hacer afirmaciones generales sobre algunos de población de nativos y no nativos, así que espero que estos ejemplos son, al menos, razonablemente representativa.
También, tiene una muestra de palabras de la lengua. De nuevo, usted probablemente quiere generalizar a la población de palabras en el idioma. De nuevo, en ese caso, espero que estas palabras podrían ser considerados, al menos para ser representante de tales palabras.
Mi recomendación sería la de considerar el lineal de efectos mixtos modelo de marco. Un mínimo de modelo para esta situación sería la de considerar la fluidez de estado (nativos, no nativos) como un efecto fijo, altavoces de efectos aleatorios, y palabras como efectos aleatorios. Los altavoces están anidadas en la fluidez de estado.
Alternativamente, usted puede tener un conjunto de palabras de interés o un conjunto completo de las palabras, en cuyo caso podría incluir palabras como un efecto fijo en el modelo.
Los modelos más complejos podría considerar las posibles interacciones entre la fluidez de estado y de palabra o altavoces y palabras. Usted también puede tener más de una medida de ráfaga para cada palabra, en cada altavoz.
Para aclarar lo que quiero decir, aquí es un ejemplo simulado con un muy simplista el análisis de uso de R
:
#-------------------------------------------------
# Make something interesting to analyze.
Data <- data.frame(
Status = rep(c("Native", "Non-native"), each=50),
Speaker = rep(1:20, each=5),
Word = rep(c("W1", "W2", "W3", "W4", "W5"), 20),
Burst = rep(0, 100)
)
# Overall average burst around 20
Data$Burst <- 20
# Speakers have variation in burst with SD=2
# Native speakers have lower burst by 3
Data$Burst[ 1:50] <- Data$Burst[ 1:50] + rep(rnorm(10, 0, 2), each=5)
Data$Burst[51:100] <- Data$Burst[51:100] + rep(rnorm(10, 3, 2), each=5)
# Words have variation in burst with SD=1
Data$Burst <- Data$Burst + rep(rnorm(5, 0, 1), 20)
# Measurement error has SD=0.5
Data$Burst <- Data$Burst + rnorm(100, 0, 0.5)
Los datos de este aspecto:
> head(Data)
Status Speaker Word Burst
1 Native 1 W1 22.05368
2 Native 1 W2 23.02794
3 Native 1 W3 22.59183
4 Native 1 W4 21.65342
5 Native 1 W5 23.77227
6 Native 2 W1 18.30863
Usted puede llevar a cabo un análisis simplista como este:
#-------------------------------------------------
# Set up the analysis.
# Plot the data.
library(ggplot2)
p <- ggplot(Data, aes(x=Word, Burst, col=Status)) + geom_point()
print(p)
# Analyze the data.
library(lme4)
library(car)
fit <- lmer(Burst ~ Status + (1|Speaker) + (1|Word), data=Data)
plot(fit)
summary(fit)
Anova(fit)
Aquí son extractos de algunos de los resultados de la anterior:
Random effects:
Groups Name Variance Std.Dev.
Speaker (Intercept) 6.7674 2.6014
Word (Intercept) 0.5543 0.7445
Residual 0.2986 0.5464
Number of obs: 100, groups: Speaker, 20; Word, 5
Fixed effects:
Estimate Std. Error t value
(Intercept) 20.2469 0.8908 22.728
StatusNon-native 3.5044 1.1685 2.999
He aquí un análisis de varianza de la tabla:
Analysis of Deviance Table (Type II Wald chisquare tests)
Response: Burst
Chisq Df Pr(>Chisq)
Status 8.9941 1 0.002709 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Así, con este se puede concluir que existe una diferencia en la explosión entre nativos y no-nativos a través de las palabras de 3.5.
Tenga en cuenta que esto es sólo un ejemplo para mostrar la idea general. Su estudio específico está destinado a tener más detalles interesantes y probablemente usted tiene otras preguntas que usted está interesado en responder. La distribución de los datos puede crear problemas --- por ejemplo, si hay muchos ceros, entonces usted puede necesitar algún otro enfoque, tales como el uso de un lineal generalizado mixto modelo de efectos.
También, dependiendo de la situación, puede que desee utilizar la nlme
paquete en lugar de la lme4
paquete. Usted puede realizar este análisis en SAS
uso de PROC MIXED
, SPSS
, o en otros paquetes estadísticos. Con el más rico marco tienes un trade-off en la complejidad de la aplicación y la interpretación!
La ventaja de este modelo es el marco que permite dibujar más interesantes conclusiones. Por ejemplo, usted puede discutir la contribución relativa a la variación de los altavoces, las palabras, y el error de medición. Usted puede proporcionar información cuantitativa resúmenes de efectos interesantes como la diferencia entre nativos y no nativos explosión de las tasas en la población. Usted puede incorporar como covariables otros lingüística o socio-lingüística de variables tales como el anterior sílabas, frases de longitud, la velocidad, el sexo, la edad, o lo que sea --- por supuesto, dependiendo de la cantidad de datos que tienen!