2 votos

Dada la probabilidad x, ¿qué probabilidad hay de que la probabilidad y se deba al azar?

Escribí un script en Python buscando palabras en el texto y separando las palabras únicas de las no únicas. Al pasar las páginas que tengo por mi programa, encuentro 1.041 palabras únicas de un total de 3.742, por lo que aproximadamente el 27% de todas las palabras son únicas. Sin embargo, cuando miro la primera palabra de cada página, 33 de las 44 palabras que comienzan cada página son únicas, lo que supone un ratio del 75%.

¿Cómo puedo medir la probabilidad de que este resultado del 75% se deba al azar, teniendo en cuenta la probabilidad "normal" del 27% de palabras únicas? Tengo algo de experiencia en R, por si eso ayuda a explicar las cosas.

3voto

ThomasKlausch Puntos 968

Creo que el término "por casualidad" no está claramente definido mientras no se tenga una hipótesis específica que se quiera probar.

Podría considerar el texto completo como su población. El "censo" completo de todas las palabras dio como resultado el parámetro "verdadero $\theta=.27$ digamos.

Ahora describe que ha tomado una "muestra" de palabras, cuya característica es la posición en la página (la primera palabra de cada página) y quiere probar la hipótesis de si la posición en la página afecta a la probabilidad de que una palabra sea única.

De ahí que quieras hacer una prueba: $$H_0:\theta=.27$$ lo que equivale a preguntarse si la muestra de palabras procede de la población de todas las palabras (su texto completo) o forma una (sub)población propia.

Si consideramos las 44 páginas (palabras) como extracciones independientes de una distribución Bernoulli, el número de resultados positivos $X$ es Binomio. Ahora necesitamos

$$P(X \ge 33|H_0) \approx 4.68*10^{-11}$$

Como puede comprobar utilizando R pbinom(32,44,.27,lower.tail=FALSE) . Esta probabilidad es muy pequeña, por lo que se puede decir con muy baja probabilidad de error que la observación de 33 palabras únicas de 44 no fue causada por el azar, porque si la hipótesis nula fuera cierta la probabilidad de que este evento ocurra sólo por el carril sería muy pequeña. Por lo tanto, $\theta$ de la subpoblación de palabras en la parte superior de todas las páginas parece ser diferente de su población $\theta$ de 0,27.

Dicho de otro modo, la posición parece tener un impacto en la probabilidad de unicidad. Sólo en una proporción muy pequeña de casos se cometería un error al afirmarlo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X