4 votos

Elección de puntos de corte al examinar la distribución de Poisson (una aplicación a los números primos)

He observado un número ( $n=6$ ) de eventos y quiere probar la hipótesis nula de que están distribuidos por Poisson con un parámetro conocido $\lambda\approx1$ . Pero no sé exactamente cuándo empecé y dejé de observar, sólo cuándo son mi primera y mi última observación. ¿Cómo puedo comprobar esta hipótesis evitando el sesgo que supone utilizar explícitamente el primer y el último evento?

Antecedentes

Esta pregunta proviene de la teoría probabilística de los números. Es común tratar los divisores primos $p$ de un número típico (grande) como variables aleatorias que están presentes con probabilidad $1/p$ y ausente en caso contrario. A gran escala, la presencia de un primo en el rango $[x, y]$ puede modelarse como un proceso de Poisson con $\lambda=\log\log y-\log\log x.$

Mi pregunta, entonces, es decidir si un número concreto es "típico" o no: ¿se distribuyen los números primos de una manera tan inusual que no sería razonable concluir que fue elegido según este proceso aleatorio?

De hecho, tengo un modelo competitivo, pero no lo he formalizado. El número puede tener, en cambio, una factorización algebraica, donde tendría un gran número de factores en un rango de tamaño similar. No quiero modelar esto directamente, simplemente para probar el modelo de Poisson mejor entendido arriba.

Tengo una lista (parcial) de los factores primos de este número, $p_1\le p_2\le p_3\le\cdots\le p_k$ . Como la parte no factorizada del número es grande y probablemente no hay primos no descubiertos entre los que ya he encontrado, no debería ser necesario modificar el modelo de Poisson. (Si tuviera la factorización completa entonces habría un problema de grados de libertad que el producto de los primos tendría que ser igual al número original). Así que básicamente quiero comprobar si hay aproximadamente el número esperado de primos entre $p_1$ y $p_k$ .

Pero esto no es tan fácil como comprobar si $$ \frac{\lambda^ke^{-\lambda}}{k!} $$ con $\lambda=\log\log p_k-\log\log p_1$ es menor que algunos $\alpha,$ porque entonces habría elegido $p_1$ y $p_k$ basado en los factores que ya sabía que tendría. ¿Cómo puedo compensar este sesgo?

Nota: No quiero modelar el sesgo de selección en términos de "¿sólo miraste este número porque observaste una distribución inusual de factores, y cuántos otros números miraste? De hecho, sospeché que este número podría tener estas características inusuales incluso antes de factorizarlo.

Resolución

Por si a alguien le interesa, llevé el número a gente entendida en este tipo de cosas y, efectivamente, tiene una factorización algebraica y por tanto era correcto rechazar la hipótesis nula. Gracias.

5voto

anand Puntos 199

[Precaución: No entiendo muy bien el fondo, por lo que estoy tomando su palabra de que el modelo de Poisson con $\lambda=1$ es lo apropiado para probar].

Dados los datos que has proporcionado para las diferencias de tiempo, la suma de ellas debería tener una distribución gamma con parámetro de forma $\alpha=5$ y el parámetro de escala $\beta=1$ si la hipótesis nula de que $\lambda=1$ es cierto.

Tengo estos resultados para la prueba de dos caras a un nivel de significación del 0,05.

> qgamma(c(.025,.975), 5, 1)
[1]  1.623486 10.241589

> sum(0.318388897, 0.0893040538, 0.209697071, 0.0782522406, 0.265018191)
[1] 0.9606605

Su suma observada es menor que el cuantil inferior, por lo que se rechaza la nulidad. Parece que $\beta<1$ es decir, $\lambda > 1$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X