3 votos

Comparación de tiempos de espera a distribución geométrica

Estoy analizando datos tomados de la observación de aproximadamente un millón de personas durante 24 meses. Para cada persona, cada mes se clasifica como un "éxito" o un "fracaso". Estoy específicamente interesado en la distribución de los tiempos de espera (= las longitudes de las rachas de fracasos) entre éxitos y en comparar esta distribución con la que surgiría si el éxito fuera un proceso de Bernoulli: la distribución geométrica.

Mi enfoque ha sido identificar en primer lugar tres subconjuntos de personas en mi grupo original: aquellos con 3 éxitos totales en 24 meses, aquellos con 8 y aquellos con 12. La razón es que solo los grupos con una probabilidad de éxito única a lo largo se pueden comparar con una distribución geométrica, que a su vez está parametrizada por una única probabilidad de éxito. Los tres valores específicos 3, 8 y 12 éxitos totales de 24 simplemente los seleccioné arbitrariamente para reflejar el rango de interés.

Permítanme utilizar el grupo de personas con 3 éxitos de 24 como ejemplo. Solo usando recuentos totales, podemos estimar la probabilidad de éxito para este grupo como $$ \hat{p} = \frac{3}{24} = 0.125 $$

Luego procedo a graficar el histograma real de tiempos de espera para el grupo de 3 de 24 en comparación con la distribución geométrica con parámetro $p=0.125$ y descubro que, por ejemplo, la frecuencia observada de tiempo de espera = 0 meses es sustancialmente mayor que la frecuencia de 0 meses dada por la distribución geométrica y lo interpreto como que, para el grupo de 3 de 24, dos éxitos seguidos ocurren más a menudo de lo que lo harían si el éxito fuera un proceso de Bernoulli.

Sin embargo, también puedo comparar con una distribución geométrica diferente donde estimo su parámetro $p$ utilizando el método de los momentos, o igualando el tiempo de espera promedio observado en la muestra de 3 de 24, $\mu$, al tiempo de espera esperado para la distribución geométrica de la siguiente manera $$ \frac{1-\hat{p}}{\hat{p}} = \mu$$

Esto me da una estimación de $\hat{p} \approx 0.169$ que es muy diferente de $\hat{p}=0.125$. Visualmente, esta distribución se ajusta mucho mejor a los datos de tiempo de espera de 3 de 24 pero los datos observados todavía se desvían claramente de estar distribuidos de manera geométrica, las desviaciones solo aparecen en lugares diferentes ahora. Podría hacer una prueba estadística del ajuste, pero debido a mi tamaño de muestra muy grande no tengo dudas de que me dirá que los datos difieren de la distribución geométrica en cualquier nivel de significancia que prefiera.

He favorecido el primer método de encontrar $\hat{p} because

  1. No quiero ajustar una distribución geométrica a mis datos. Sé que los datos no están distribuidos de forma completamente geométrica y me interesa específicamente las diferencias sistemáticas (en contraposición al error de medición) entre esta y la distribución geométrica adecuada.
  2. Dado que los datos no están distribuidos de forma geométrica, esto me hace pensar que el método de los momentos estará "desviado" y no me dará el parámetro de la distribución geométrica que debería usar como base de comparación, sino de otra distribución geométrica que casualmente se ajusta mejor a los datos.

¿Es legítimo lo que estoy haciendo y cómo debo determinar $\hat{p}$?

(Puedo proporcionar un ejemplo en R si no he sido lo suficientemente preciso al expresar el problema como un problema teórico.)

2voto

Signum Puntos 542

Creo que he respondido a mi propia pregunta al darme cuenta (gracias a un colega) de que lo que estaba haciendo no era legítimo después de todo. La distribución de tiempos de espera en un conjunto que se determina de antemano que consta de 24 ensayos de Bernoulli, 3 de los cuales son exitosos, no está dada por la distribución Geométrica. En su lugar, está dada por una distribución similar pero diferente que tiene soporte solo en el conjunto finito 0...21. No he podido resolver la combinatoria para escribir esta distribución, pero pude determinarla para 24 ensayos usando fuerza bruta computacional (generé cada combinación de 3 éxitos de 24 y luego simplemente conté las frecuencias de tiempos de espera). Creo que la distribución Geométrica, que tiene soporte en todo $\mathbb N$, se obtiene en el límite a medida que el número de ensayos tiende a infinito.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X