Los valores hipotéticos de la frecuencia de las letras que aparecen a continuación están tomados del sitio web de Pavel Micka, que cita la obra Cryptological Mathematics de Robert Lewand.
Las apariencias reales se obtuvieron manualmente al leer "Un estudio en escarlata" de Arthur Conan Doyle.
Utilice el estadístico Chi-cuadrado para comprobar si las frecuencias hipotéticas son correctas.
Esta será una prueba de una cola por diseño. Utilice un $5\%$ probabilidad de un error de tipo I.
Hypothesized Actual
Letter Frequency Appearances
a 0.08167 19890
b 0.01492 1701
c 0.02782 5556
d 0.04253 10578
e 0.12703 29479
f 0.02228 4252
g 0.02015 5601
h 0.06094 8663
i 0.06966 9267
j 0.00153 276
k 0.00772 2244
l 0.04025 9458
m 0.02406 7184
n 0.06749 13765
o 0.07507 16986
p 0.01929 5887
q 0.00095 153
r 0.05987 7984
s 0.06327 11181
t 0.09056 27087
u 0.02758 5277
v 0.00978 3031
w 0.02360 7670
x 0.00150 200
y 0.01974 3396
z 0.00074 159
Solución intentada:
He añadido cada una de las apariciones reales para obtener $216{,}925$ . A continuación, he multiplicado todas las frecuencias hipotéticas por ese número. A continuación, utilicé la fórmula Estadística Chi-cuadrado $= \sum$$ (O-E)^2 \over {E} $ to get $ 14598.17 $. The critical value I found from the table was $ 37,652$, rechazando así la hipótesis nula.
Me preguntaba si había hecho esto correctamente. Sospecho que no lo hice porque mi estadística Chi-cuadrado era mucho mayor que mi valor crítico.
Cualquier ayuda será muy apreciada.
EDITAR:
Creo que tengo que hacer la raíz cuadrada de mi estadística chi-cuadrado para obtener $120.8$ . Eso sigue siendo mucho más grande que $37.652$ Mi valor crítico.