4 votos

Importancia de la prueba por más de pronunciación

Tengo un conjunto de palabras pronunciadas por un grupo de hablantes nativos y un grupo de hablantes no nativos. En cada registro se determinó la longitud de la ráfaga (fonética del término). Yo creo que los hablantes no nativos tienden a tener más tiempo de ráfaga veces. Sin embargo, el estallido de veces varían con la palabra, no importa el idioma nativo, por lo que no puedo realizar una prueba t en la longitud absoluta en ms. En su lugar, para cada palabra de lo que calcula la relación de la (media)de longitud $A_i$ de los hablantes nativos y el (la media)de longitud $B_i$ de los hablantes no nativos y quiero realizar en un solo lado-sample t-test en el nullhypothesis que esta relación es de 1.

Es este estadísticamente adecuada?

Me temo que hay algo mal con él, ya que con una sola palabra mi hablantes nativos, tienen 0 ráfaga de tiempo para que el cociente se convierte en infinito. También me suspetct el resultado de la prueba puede depender (no en mi caso) sobre cómo tomar el cociente ($A_i/B_i\leftrightarrow B_i/A_i$), lo que no debería.

2voto

Matt Puntos 918

Es este estadísticamente adecuada?

Bueno, te deja un montón sobre la mesa y se puede limitar sus opciones. Creo que para conseguir un mejor análisis que usted puede ser que desee considerar un rico marco de la $t$-prueba.

Cómo soy interpretación de su estudio es que tiene una muestra de los nativos y de los hablantes no nativos. Probablemente, usted desea hacer afirmaciones generales sobre algunos de población de nativos y no nativos, así que espero que estos ejemplos son, al menos, razonablemente representativa.

También, tiene una muestra de palabras de la lengua. De nuevo, usted probablemente quiere generalizar a la población de palabras en el idioma. De nuevo, en ese caso, espero que estas palabras podrían ser considerados, al menos para ser representante de tales palabras.

Mi recomendación sería la de considerar el lineal de efectos mixtos modelo de marco. Un mínimo de modelo para esta situación sería la de considerar la fluidez de estado (nativos, no nativos) como un efecto fijo, altavoces de efectos aleatorios, y palabras como efectos aleatorios. Los altavoces están anidadas en la fluidez de estado.

Alternativamente, usted puede tener un conjunto de palabras de interés o un conjunto completo de las palabras, en cuyo caso podría incluir palabras como un efecto fijo en el modelo.

Los modelos más complejos podría considerar las posibles interacciones entre la fluidez de estado y de palabra o altavoces y palabras. Usted también puede tener más de una medida de ráfaga para cada palabra, en cada altavoz.

Para aclarar lo que quiero decir, aquí es un ejemplo simulado con un muy simplista el análisis de uso de R:

#-------------------------------------------------
# Make something interesting to analyze.

Data <- data.frame(
  Status  = rep(c("Native", "Non-native"), each=50),
  Speaker = rep(1:20, each=5),
  Word    = rep(c("W1", "W2", "W3", "W4", "W5"), 20),
  Burst   = rep(0, 100)
)

#   Overall average burst around 20
Data$Burst <- 20

#   Speakers have variation in burst with SD=2
#   Native speakers have lower burst by 3
Data$Burst[ 1:50] <-  Data$Burst[ 1:50]  + rep(rnorm(10, 0, 2), each=5)
Data$Burst[51:100] <- Data$Burst[51:100] + rep(rnorm(10, 3, 2), each=5)

#   Words have variation in burst with SD=1
Data$Burst <- Data$Burst + rep(rnorm(5, 0, 1), 20)

#   Measurement error has SD=0.5
Data$Burst <- Data$Burst + rnorm(100, 0, 0.5)

Los datos de este aspecto:

> head(Data)
  Status Speaker Word    Burst
1 Native       1   W1 22.05368
2 Native       1   W2 23.02794
3 Native       1   W3 22.59183
4 Native       1   W4 21.65342
5 Native       1   W5 23.77227
6 Native       2   W1 18.30863

Usted puede llevar a cabo un análisis simplista como este:

#-------------------------------------------------
# Set up the analysis.

# Plot the data.
library(ggplot2)
p <- ggplot(Data, aes(x=Word, Burst, col=Status)) + geom_point()
print(p)

# Analyze the data.
library(lme4)
library(car)

fit <- lmer(Burst ~ Status + (1|Speaker) + (1|Word), data=Data)
plot(fit)
summary(fit)
Anova(fit)

Aquí son extractos de algunos de los resultados de la anterior:

Random effects:
 Groups   Name        Variance Std.Dev.
 Speaker  (Intercept) 6.7674   2.6014  
 Word     (Intercept) 0.5543   0.7445  
 Residual             0.2986   0.5464  
Number of obs: 100, groups:  Speaker, 20; Word, 5

Fixed effects:
                 Estimate Std. Error t value
(Intercept)       20.2469     0.8908  22.728
StatusNon-native   3.5044     1.1685   2.999

He aquí un análisis de varianza de la tabla:

Analysis of Deviance Table (Type II Wald chisquare tests)

Response: Burst
        Chisq Df Pr(>Chisq)   
Status 8.9941  1   0.002709 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Así, con este se puede concluir que existe una diferencia en la explosión entre nativos y no-nativos a través de las palabras de 3.5.

Tenga en cuenta que esto es sólo un ejemplo para mostrar la idea general. Su estudio específico está destinado a tener más detalles interesantes y probablemente usted tiene otras preguntas que usted está interesado en responder. La distribución de los datos puede crear problemas --- por ejemplo, si hay muchos ceros, entonces usted puede necesitar algún otro enfoque, tales como el uso de un lineal generalizado mixto modelo de efectos.

También, dependiendo de la situación, puede que desee utilizar la nlme paquete en lugar de la lme4 paquete. Usted puede realizar este análisis en SAS uso de PROC MIXED, SPSS, o en otros paquetes estadísticos. Con el más rico marco tienes un trade-off en la complejidad de la aplicación y la interpretación!

La ventaja de este modelo es el marco que permite dibujar más interesantes conclusiones. Por ejemplo, usted puede discutir la contribución relativa a la variación de los altavoces, las palabras, y el error de medición. Usted puede proporcionar información cuantitativa resúmenes de efectos interesantes como la diferencia entre nativos y no nativos explosión de las tasas en la población. Usted puede incorporar como covariables otros lingüística o socio-lingüística de variables tales como el anterior sílabas, frases de longitud, la velocidad, el sexo, la edad, o lo que sea --- por supuesto, dependiendo de la cantidad de datos que tienen!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X