Estoy analizando datos tomados de la observación de aproximadamente un millón de personas durante 24 meses. Para cada persona, cada mes se clasifica como un "éxito" o un "fracaso". Estoy específicamente interesado en la distribución de los tiempos de espera (= las longitudes de las rachas de fracasos) entre éxitos y en comparar esta distribución con la que surgiría si el éxito fuera un proceso de Bernoulli: la distribución geométrica.
Mi enfoque ha sido identificar en primer lugar tres subconjuntos de personas en mi grupo original: aquellos con 3 éxitos totales en 24 meses, aquellos con 8 y aquellos con 12. La razón es que solo los grupos con una probabilidad de éxito única a lo largo se pueden comparar con una distribución geométrica, que a su vez está parametrizada por una única probabilidad de éxito. Los tres valores específicos 3, 8 y 12 éxitos totales de 24 simplemente los seleccioné arbitrariamente para reflejar el rango de interés.
Permítanme utilizar el grupo de personas con 3 éxitos de 24 como ejemplo. Solo usando recuentos totales, podemos estimar la probabilidad de éxito para este grupo como $$ \hat{p} = \frac{3}{24} = 0.125 $$
Luego procedo a graficar el histograma real de tiempos de espera para el grupo de 3 de 24 en comparación con la distribución geométrica con parámetro $p=0.125$ y descubro que, por ejemplo, la frecuencia observada de tiempo de espera = 0 meses es sustancialmente mayor que la frecuencia de 0 meses dada por la distribución geométrica y lo interpreto como que, para el grupo de 3 de 24, dos éxitos seguidos ocurren más a menudo de lo que lo harían si el éxito fuera un proceso de Bernoulli.
Sin embargo, también puedo comparar con una distribución geométrica diferente donde estimo su parámetro $p$ utilizando el método de los momentos, o igualando el tiempo de espera promedio observado en la muestra de 3 de 24, $\mu$, al tiempo de espera esperado para la distribución geométrica de la siguiente manera $$ \frac{1-\hat{p}}{\hat{p}} = \mu$$
Esto me da una estimación de $\hat{p} \approx 0.169$ que es muy diferente de $\hat{p}=0.125$. Visualmente, esta distribución se ajusta mucho mejor a los datos de tiempo de espera de 3 de 24 pero los datos observados todavía se desvían claramente de estar distribuidos de manera geométrica, las desviaciones solo aparecen en lugares diferentes ahora. Podría hacer una prueba estadística del ajuste, pero debido a mi tamaño de muestra muy grande no tengo dudas de que me dirá que los datos difieren de la distribución geométrica en cualquier nivel de significancia que prefiera.
He favorecido el primer método de encontrar $\hat{p} because
- No quiero ajustar una distribución geométrica a mis datos. Sé que los datos no están distribuidos de forma completamente geométrica y me interesa específicamente las diferencias sistemáticas (en contraposición al error de medición) entre esta y la distribución geométrica adecuada.
- Dado que los datos no están distribuidos de forma geométrica, esto me hace pensar que el método de los momentos estará "desviado" y no me dará el parámetro de la distribución geométrica que debería usar como base de comparación, sino de otra distribución geométrica que casualmente se ajusta mejor a los datos.
¿Es legítimo lo que estoy haciendo y cómo debo determinar $\hat{p}$?
(Puedo proporcionar un ejemplo en R si no he sido lo suficientemente preciso al expresar el problema como un problema teórico.)