6 votos

Categoría más frecuente

Yo soy la medición de la frecuencia de las consonantes en una muestra del léxico de una lengua. Los resultados son como sigue:

+-----+-----+-----+-----+----+----+-------+
|  p  |  t  |  k  |  m  | n  | r  | Total |
+-----+-----+-----+-----+----+----+-------+
| 278 | 256 | 122 | 189 | 83 | 72 |  1000 |
+-----+-----+-----+-----+----+----+-------+

Es fácil ver que las frecuencias son bastante diferentes, y $\chi^2$ prueba de bondad de ajuste confirma esto ($\chi^2$ = 208.5345, df = 5, p < 0.001).

La cuestión de hecho, estoy muy interesado es el siguiente:

La más frecuente de las consonantes es p, pero es importante este?

En otras palabras, puedo reclamar que p es la más frecuente de las consonantes? Es p significativamente más frecuente que la segunda causa más frecuente de la consonante t, o podría la diferencia entre los dos debido a la oportunidad?

¿Qué pruebas debo usar? Es aceptar, simplemente, el uso de un $\chi^2$ prueba de bondad de ajuste de las frecuencias de p y t ?

2voto

AdamSane Puntos 1825

No directamente, porque las categorías que usted eligió para comparar se basan en sus valores observados.

Todavía es posible probar una cosa mediante una prueba de chi-cuadrado estadística, pero la distribución de la prueba estadística de la hipótesis nula no puede ser (y espero que no lo es) bien aproximada por la distribución que se aplica cuando las categorías que se compara no es basado en los datos observados.

Es decir, usted necesita para calcular una nueva distribución de la estadística de prueba.

Por favor, también tenga en cuenta que si ya has hecho una comparación (como el general de la chi-cuadrado) y la decisión de hacer esta comparación es condicional en el que uno, la prueba es también afectada por la decisión condicional.


Algunos detalles:

Aquí está la situación como yo comprender lo que está pasando.

Hay una tabla de contingencia de la consonante cuenta.

Decidimos probar para la igualdad de proporción entre las dos categorías. Podemos construir un chi-cuadrado de bondad de ajuste prueba de la manera habitual, por el condicionamiento de su total de:

  p    t     Total
 278  256  | 534

(Sin embargo, este es, efectivamente, una prueba una cola, ya que sabemos que la observada p-count es mayor que la observada t-conde.)

A continuación, podemos, por supuesto, calcular el chi=cuadrado estadístico de prueba:

> chisq.test(c(278,256))

        Chi-squared test for given probabilities

data:  c(278, 256)
X-squared = 0.9064, df = 1, p-value = 0.3411

El valor de p puede no significar mucho, pero la estadística es aún una medida de la magnitud de la diferencia entre los dos.

Entonces, ¿cómo podemos generar la distribución bajo la nula? Depende de lo que suponemos acerca de la situación, y si este es un post hoc de prueba.

Como un ejemplo, digamos que estamos en la situación en la que tenemos la 6-categoría de la tabla sin ninguna prueba anterior y estamos interesados en la cuestión "Es el más común inusualmente más común que el segundo más común?", en contra de la nulos que son ambos vienen de una distribución donde las 6 categorías son igualmente probables

A continuación, podemos simular fácilmente a partir de la distribución de conformidad con el valor null. Este:

  chisq.test(sort(table(sample(1:6,1000,repl=TRUE)),decr=TRUE)[1:2])$statistic

genera una única observación de que los nulos. Podemos repetir esto muchas veces para tener una idea de lo que la distribución se parece a:

enter image description here

Porque de el discreto, es un poco difícil saber si eso es bien aproximada por la $\chi^2_1$ distribución o no, pero una mirada a la media y la varianza sugiere que no. Si hemos partido por la media y la varianza, sin embargo, a una escala adecuada de la versión de la estadística tiene aproximadamente el derecho de distribución en diferentes d.f., especialmente en la parte inferior de la cola (de la p-valores, es decir, la parte superior de la cola de la chi-cuadrado):

enter image description here

Si ahora nos fijamos en los datos originales:

> pchisq(2.4*chisq.test(c(278,256))$statistic,df=0.8,lower.tail=FALSE)
X-squared 
0.1059023 

Este enfoque sugiere un p-valor de alrededor de 0.1 mediante una chi-=cuadrado de la estadística y a una modificación de la distribución de la chi cuadrado. Si queremos calcular el p-valor directamente a partir de la simulación de la distribución, se obtiene un p-valor de 0.0993.


En otras palabras, puedo reclamar que p es la más frecuente de las consonantes?

Aunque creo que es posible hacer algo como eso, no creo que las pruebas de los más populares en contra de la segunda más popular es necesariamente el mejor enfoque. Simplemente se podría considerar, por ejemplo, la distribución de la proporción de los mayores de grupo bajo la nula de igualdad de proporciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X