2 votos

PIT en una muestra con m bins, y la prueba KS utilizada para estimar un buen valor para m

Sé de PIT pero esto sólo funciona cuando se conoce la distribución, o al menos se tiene una pista fuerte. Lo que trato de conseguir es transformar una muestra dada en una muestra equivalente con distribución uniforme estándar continua.

Tengo una muestra de tamaño $n$ . Elijo arbitrariamente un valor $m$ y estimar $m+1$ cuantiles (por ejemplo, si $m=4$ calculo los cuantiles para $\{0, .25, .5, .75, 1\}$ ). El procedimiento se describe en Wikipedia .

Utilizando los cuantiles transformo cada $x_i$ . Si $x_i$ resulta ser exactamente un cuantil calculado, entonces conozco exactamente su valor equivalente, de lo contrario interpolo el valor equivalente linealmente.

He hecho una pequeña simulación. Construyo una muestra aleatoria de la normal estándar con $10^6$ valores. He aplicado la transformación descrita y hago la prueba KS para algunos valores de $m$ . Los resultados se ven así:

  m         D   p-value
100  0.006090   0.000000000000 ***
200  0.003151   0.000000004733 ***
300  0.001991   0.000720875707 ***
400  0.001484   0.024403417075 *
500  0.001057   0.213437843144

Parece que puedo hacer un EIF sobre muestra con sólo 500 puntos de interpolación.

La pregunta es: ¿puedo utilizar la bondad de ajuste de una muestra de Kolmogorov-Smirnov para encontrar un valor adecuado para $m$ (el número de cuantiles computados)?

3voto

Joe Puntos 6

La pregunta es sobre la aplicación de una transformación a una muestra dada para obtener la correspondiente muestra con distribución uniforme continua estándar.

Comenzaré describiendo un enfoque natural y conveniente para realizar este tipo de transformación, y proporcionaré un ejemplo del método con los datos considerados por la OP usando R. Luego, discutiré brevemente el enfoque considerado por la OP usando una transformación cuantílica basada en submuestras.

Transformación no paramétrica

Una forma natural de aplicar la transformada integral de probabilidad sin especificar una distribución paramétrica es utilizar la función de distribución empírica (ECDF).

Para evitar problemas de límites, es más conveniente utilizar la función de distribución empírica modificada $$ F_n(x) = \frac{1}{n+1}\sum_{i = 1}^n I_{\{x_i\leq x\}} , $$ donde $I(\cdot)$ denota la función indicadora. Aplicando la transformada integral de probabilidad al conjunto de datos $X_1, \ldots, X_n$ utilizando $F_n$ corresponde al cálculo de los rangos normalizados $$ U_i = \frac{R_i}{n+1} , $$ donde $R_i$ denota el rango de $X_i$ en orden creciente (es decir $R_k = 1$ si $X_k$ es la observación más pequeña).

Ejemplo

La siguiente figura muestra un histograma del conjunto de datos simulados de $10^4$ valores de la distribución normal estándar (izquierda), un histograma de los datos transformados (centro), y los valores transformados $U_i$ frente a los valores originales $X_i$ (derecha). Por construcción, la distribución de las variables transformadas es uniforme entre 0 y 1.

enter image description here

El código R utilizado para ejecutar esta simulación se muestra a continuación.

## Parameters
n <- 10000
## Data set generation
set.seed(345)
x <- rnorm(n)
## Transformation
u <- rank(x) / (n + 1)
## Result visualization
par(mfrow = c(1, 3))
hist(x, breaks = 101, main = "")
hist(u, breaks = 101, main = "")
plot(x, u)
par(mfrow = c(1, 1))

Comentarios

También podrían utilizarse estimaciones alternativas de la función de distribución acumulativa subyacente (véase aquí para un debate).

La transformación basada en cuantiles con interpolación considerada por la OP es una opción que corresponde a una versión "suavizada" de la ECDF. Sin embargo, este enfoque descarta la información contenida en el conjunto de datos, ya que utiliza $m<n$ observaciones, lo que resulta en un estimador menos eficiente de la distribución subyacente. Aumentando $m$ mejora la calidad del estimador, por lo que elegir $m=n$ parece lo más apropiado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X