4 votos

Mis datos no se distribuyen normalmente: ¿qué puedo hacer para estimar una probabilidad de cola?

Continuando con mi pregunta anterior Estoy tratando de analizar los datos cualitativamente.

En el siguiente gráfico, hago $10000$ muestras donde cuento "el número de choques". Trazo $n$ frente al número de veces $n$ se produjeron enfrentamientos.

(El número de enfrentamientos es una medida de "cómo de erróneo" fue un intento de ataque [en el esquema de reparto de secretos que estoy viendo]).

Frequency plot of number of clashes.

(Dibujado con tikzDevice para R y luego se edita manualmente).

En R, falla el shapiro.test , por lo que no se distribuye normalmente:

> shapiro.test(z[1:5000])

    Shapiro-Wilk normality test

data:  z[1:5000]
W = 0.9947, p-value = 1.597e-12

Así que:

P: ¿Cómo puedo estimar la probabilidad $p$ de $0$ ¿contratiempos de la distribución anterior?

Debe ser muy pequeño, alrededor de $10^{-14}$ :

  • Tengo un límite inferior teórico de $1.046 \times 10^{-14}$ y espero que se acerque al valor real.
  • He hecho $10^{11}$ muestras, y todos tenían al menos un choque.

He intentado ajustar una curva exponencial al lado izquierdo (dibujado arriba): la curva es $$3.29 \times 10^{-12} \exp(0.56n)$$ que, cuando $n=0$ da la estimación $\hat{p}=3.29 \times 10^{-16}$ . Pero sé que esta estimación está fuera de lugar por un factor de $100$ Lo que me hace pensar que este no es el mejor enfoque. (O tal vez debería ajustar alguna otra curva, o utilizar más muestras. O tal vez este nivel de confianza es de esperar).


Apéndice :

  • Estoy tratando de mostrar que $\mathrm{Pr}[0 \text{ clashes}]$ es pequeño (por ejemplo, menos de $10^{-8}$ o $10^{-9}$ ). Así que la estimación no tiene que ser precisa, pero necesito tener confianza en ella.

  • El número máximo teórico de enfrentamientos es $220$ (esta cifra puede alcanzarse).

  • "¿Conoce la potencia estadística de la prueba de Shapiro-Wilk para un tamaño de muestra tan grande?" En resumen, no, no lo sé. Pero podemos comparar los resultados con datos aleatorios de una distribución normal:

    > shapiro.test(rnorm(5000, mean = mean(z), sd = sd(z)))
    
        Shapiro-Wilk normality test
    
    data:  rnorm(5000, mean = mean(z), sd = sd(z))
    W = 0.9996, p-value = 0.4053

    Si bien los resultados fluctúan entre las ejecuciones, no parecen comparables a mis datos.

    También probé con menos muestras incluidas y no pareció "ayudar".

    > shapiro.test(z[1:100])
    
        Shapiro-Wilk normality test
    
    data:  z[1:100]
    W = 0.9757, p-value = 0.06116

    en comparación con

    > shapiro.test(rnorm(100, mean = mean(z), sd = sd(z)))
    
        Shapiro-Wilk normality test
    
    data:  rnorm(100, mean = mean(z), sd = sd(z))
    W = 0.9845, p-value = 0.2932

    (Aquí, fluctúa bastante).

  • Soy capaz de hacer alrededor de $10^{10}$ muestras, por si sirve de algo.

1voto

Dejemos que $C=$ Número de enfrentamientos y $p_0 = P(C=0)$ . En general, su distribución es una función de masa de probabilidad discreta. Sin embargo, como sólo le interesa un único valor $(C=0)$ el resto de la distribución es algo irrelevante.

Por lo tanto, un enfoque sencillo es desarrollar un intervalo de confianza conservador para $p_0$ invirtiendo la prueba de hipótesis para una proporción binomial:

$H_0: p_0=p\;\;\text{vs.}\;\; H_a: p_0<p$

Hay dos enfoques comunes (aproximados) para construcción de los IC de las proporciones binomiales : La aproximación normal y el intervalo de puntuación de Wilson. Desgraciadamente, ya que esperamos $p_0 \ll .001$ En el caso de que el nivel de confianza de los datos no sea el deseado, es probable que estos intervalos aproximados no tengan el nivel de confianza real deseado.

En su lugar, recomendaría utilizar un Intervalo de confianza de Clopper-Pearson . No sólo se basa en la distribución binomial exacta, sino que está garantizado que alcanza su nivel de confianza nominal (a diferencia de lo que ocurre con las otras dos). De hecho, suele ser bastante conservador, en el sentido de que un IC del 95% puede alcanzar realmente una probabilidad de cobertura del 99%, pero no será inferior al 95%. Para los valores "típicos" de p, (por ejemplo, entre 0,01 y 0,99) se suelen preferir los intervalos aproximados porque suelen estar cerca de su cobertura nominal, mientras que el intervalo de Clopper-Pearson es demasiado conservador. Sin embargo, ésta no es su situación, por lo que el intervalo de Clopper-Pearson es un intervalo más seguro a efectos de delimitación.

Ahora, con $10^{11}$ puntos de datos en los que cada uno tiene al menos un choque, su IC será bastante fácil de construir, y bastante cercano a 0, como usted esperaba. A continuación se muestra el $1-\alpha$ CI de Clopper-Pearson unilateral para $p_0$ (Obsérvese que el LB= $1.046 \times 10^{-14}$ según su cálculo teórico), suponiendo que ha observado una cadena ininterrumpida de N resultados no nulos.

Límite superior = $\{p:(1-p)^{N}= \alpha\}=\{p:N\ln(1-p)= \ln(\alpha)\} \rightarrow p=1-\exp(\frac{\ln(\alpha)}{N})$ .

Ahora, con $N=10^{11}$ tendrá problemas numéricos para los valores habituales de $\alpha =\{.05,.01\}$ Sin embargo, ya que has indicado que querías saber si es menor que, por ejemplo, $10^{-8}$ podemos invertir este proceso y encontrar el nivel de confianza con el que podemos decir que $p_0\leq 10^{-8}$ :

$10^{-8} = 1-\exp(\frac{\ln(\alpha)}{10^{11}}) \rightarrow \frac{\ln(\alpha)}{10^{11}} = \ln(1-10^{-8}) \rightarrow \alpha = (1-10^{-8})^{10^{11}}\ll 10^{-10}$ . Por lo tanto, puede estar prácticamente seguro de que $p_0<10^{-8}$

Si necesitas números reales, fui a WolframAlpha y obtuve los siguientes valores para las cantidades que pueden interesarte:

Nivel de confianza para $p_0<10^{-8}$ = $1-5 \times 10^{-435} \approx 1$

99% CI unilateral $\approx 4.6 \times 10^{-11}$

IC del 95% unilateral $\approx 3\times 10^{-11}$

Nivel de confianza para $p_0 < 10^{-13}$ $\approx 0.01$

El último resultado puede ser algo decepcionante, ya que sólo podemos acotar $p_0$ dentro de 3 órdenes de magnitud del mínimo teórico con cualquier grado razonable de confianza, incluso con su enorme tamaño de muestra. Tal es la dificultad de las probabilidades extremadamente pequeñas.

Espero que esto ayude.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X