2 votos

Prueba de hipótesis chi-cuadrado de la frecuencia de las letras

Los valores hipotéticos de la frecuencia de las letras que aparecen a continuación están tomados del sitio web de Pavel Micka, que cita la obra Cryptological Mathematics de Robert Lewand.

Las apariencias reales se obtuvieron manualmente al leer "Un estudio en escarlata" de Arthur Conan Doyle.

Utilice el estadístico Chi-cuadrado para comprobar si las frecuencias hipotéticas son correctas.

Esta será una prueba de una cola por diseño. Utilice un $5\%$ probabilidad de un error de tipo I.

        Hypothesized    Actual
Letter  Frequency       Appearances

a   0.08167            19890
b   0.01492            1701
c   0.02782            5556
d   0.04253            10578
e   0.12703            29479
f   0.02228            4252
g   0.02015            5601
h   0.06094            8663
i   0.06966            9267
j   0.00153            276
k   0.00772            2244
l   0.04025            9458
m   0.02406            7184
n   0.06749            13765
o   0.07507            16986
p   0.01929            5887
q   0.00095            153
r   0.05987            7984
s   0.06327            11181
t   0.09056            27087
u   0.02758            5277
v   0.00978            3031
w   0.02360            7670
x   0.00150            200
y   0.01974            3396
z   0.00074            159

Solución intentada:

He añadido cada una de las apariciones reales para obtener $216{,}925$ . A continuación, he multiplicado todas las frecuencias hipotéticas por ese número. A continuación, utilicé la fórmula Estadística Chi-cuadrado $= \sum$$ (O-E)^2 \over {E} $ to get $ 14598.17 $. The critical value I found from the table was $ 37,652$, rechazando así la hipótesis nula.

Me preguntaba si había hecho esto correctamente. Sospecho que no lo hice porque mi estadística Chi-cuadrado era mucho mayor que mi valor crítico.

Cualquier ayuda será muy apreciada.

EDITAR:

Creo que tengo que hacer la raíz cuadrada de mi estadística chi-cuadrado para obtener $120.8$ . Eso sigue siendo mucho más grande que $37.652$ Mi valor crítico.

1voto

BruceET Puntos 7117

Si ha utilizado "Apariciones reales" para $O$ en la fórmula del estadístico chi-cuadrado $Q$ y $n$ veces la "frecuencia hipotética" para $E$ , entonces su método de calcular $Q$ es correcto.

Usted tiene $k = 26$ categorías" (letras del alfabeto) por lo que $Q \stackrel{aprx}{\sim}\mathsf{Chisq}(\nu = k - 1).$ Por lo tanto, para una prueba al nivel del 5%, el valor crítico es 37,65248, como usted dice.

Con una gran cantidad de datos, no es raro obtener un valor muy grande de $Q$ que indica un muy mal ajuste de las frecuencias observadas a las esperadas.

Sin embargo, he intentado introducir sus datos en el software Minitab 17. Cuando Cuando corté/pegué de su tabla de datos, los datos de las filas de las letras "q" y "u faltaban. (Tal vez hay caracteres ocultos, no imprimibles, en su tabla de datos en su tabla de datos que impidieron la transferencia). Introduje estas dos filas en la hoja de trabajo de Minitab a mano. Luego, como comprobación, sumé las frecuencias hipotéticas y obtuve un total de 1 y las para obtener 216,925, que coincide con tu cálculo. Además, obtuve el mismo $Q$ lo hiciste. [Tú sí no necesita tomar la raíz cuadrada].

Así que mis cálculos coinciden con los tuyos, y los datos no se ajustan a las frecuencias hipotéticas.

Las "contribuciones" particularmente grandes a $Q$ vienen de las cartas, h, i, t, y w. (Demasiadas "h" e "i"; no hay suficientes "t" y "w" para una buena combinación). Puede haber alguna peculiaridad en el tema de la historia de Doyle o en su estilo de escritura (uso excesivo o insuficiente de palabras comunes como el, en, ello, en, a, con, que, que etc.) que explica la discrepancia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X