8 votos

Muestra Bootstrap con tamaño mayor que la muestra original.

Quiero predecir los rendimientos futuros más de 20 días horizonte el uso de un ARMA-GARCH modelo ajustado a los datos de mi. El objetivo es estimar diferentes medidas de riesgo como el VaR o CVar. En particular, decir que el uso de AR(1) GARCH(1,1). El santiago que yo uso para la estimación de 500 observación diaria de logreturns. Eso es lo que yo suelo hacer:

  1. Estimación AR, ARCH y GARCH coeficientes de
  2. Calcular el residual estandarizado por la división de residuos por estima varianzas condicionales
  3. La estandarización de los residuos constituyen mi INVARIANTES que es el yo.yo.d. la serie de la que me extraer muestras bootstrap para generar escenarios.

El bootstrap muestras se extraen mediante la simulación de un uniforme entre 1 y el tamaño de la muestra (500 en este caso) y, a continuación, teniendo en cuenta el valor correspondiente a la posición en el vector de los residuos estandarizados.

El problema es que solo tengo 500 estandarizado de residuos y creo que 500 es el tamaño máximo de muestras bootstrap que se puede extraer.

Mi colega en lugar de extractos de 100000 observaciones fuera de la muestra original de $N=500$ observaciones.

Siento que esto es de alguna manera incorrecta conceptualmente. La simulación de un solo paso hacia adelante produciría exactamente el mismo escenario que la inicial, pero con repeted valores que no añaden información.

Mi colega afirma que si él quiere proyectar sobre un período más largo, por ejemplo, 20 días horizonte, los 100000 extracciones a partir de la muestra original de N=500 obs. produciría muchos escenarios diferentes en la final horizonte, proporcionando un CDF, que es suave. En realidad thit es cierto porque, aunque los valores son simplemente repite en el primer paso, después de que se puede resumir en muchas maneras diferentes.

Lo que se dice no siento que este es el adecuado. He propuesto una alternativa que es:

  1. A partir de la estandarización de los residuos de crear un alisado CDF empírica, dicen kernel
  2. Exctract uniformes entre 0 y 1 y alimentar el empírica alisado CDF, es decir la inversa de la transformación.

De esta manera me siento más cómodo decir que puedo generar una bootstrab muestra de mayor tamaño que el original, pero todavía no estoy seguro.

Estoy estudiando bootstrap teoría en un libro de Efron

Efron, Tibshirani - Una Introducción a la Bootstrap - Springer Estados Unidos (1993)

pero hay muchos conceptos que no entiendo todavía.

Mi pregunta son:

  1. ¿Usted da su opinión sobre el problema que se me acaba de abajo?
  2. Sugeriría cualquier válido matherial para el estudio de bootstrap otros que el libro que he mencionado?
  3. Creo que esta aplicación de bootstrap es de alguna manera diferente a la que se explicó en Efron del bookm, que es la evaluación de los intervalos de confianza para los parámetros estimados. ¿Qué piensa usted acerca de esto?

Cualquier comentario sería muy apreciada

Pido disculpas por la longitud del post, pero he intentado ser lo más conciso posible. Gracias

6voto

bheklilr Puntos 113

El objetivo de arranque es (generalmente) para hacerse una idea de la distribución de la estimación del parámetro(s). Dado que las estimaciones de los parámetros se formaron sobre la base de una muestra de tamaño $N$, su distribución está condicionada a que el tamaño de la muestra. Remuestreo de mayor o menor tamaño de la muestra, por lo tanto. dar una mejor visión distorsionada de la distribución de las estimaciones de los parámetros de remuestreo con un tamaño de muestra de $N$.

En este caso, sin embargo, no son en realidad la realización de la Efron bootstrap. Usted es simplemente generar valores simulados del recorrido de la muestra se basa en el estimado de 500 errores. En consecuencia, la cuestión de si o no usted puede generar más de 500 muestras de los caminos es discutible; se puede, como Johan señala, generar tantas como quieras.

Puesto que usted está basando sus resultados en el conjunto inicial de las estimaciones de los parámetros, el ejemplo de los caminos están condicionadas a que el conjunto sea correcta. La variabilidad en el resultado final no toma en cuenta la incertidumbre de los parámetros, y es esta adicionales de variabilidad que la Efron bootstrap está diseñado para ayudar con. Un proceso que incorpora el proceso de arranque puede ser:

  1. Seleccionar una muestra (con reemplazo) de 500 valores de la configuración inicial de la normalización de los residuos (este 500 "500" que le dio tantos problemas en su forma de pensar sobre el problema y que Efron se refiere en el libro)
  2. Calcular una versión simulada de la serie original utilizando los residuos estandarizados y su inicial estimaciones de los parámetros,
  3. Re-estimar los parámetros a partir de la versión simulada de la serie original,
  4. El uso de la estandarización de los residuos de la estimación de los parámetros y los datos originales para generar algunos (pequeña) número de $M$ de los futuros de la muestra caminos,
  5. Si usted ha generado la suficiente total de la muestra rutas de acceso, de salida, de lo contrario ir a 1.

Los pasos 1 a 3, donde el Efron bootstrap entra en juego. El paso 4 es la simulación de como se lleva a cabo actualmente. Tenga en cuenta que en cada iteración se genera nuevo estándar de los residuos para su uso en el simulador; esto disminuirá la dependencia de los resultados en el conjunto inicial de las estimaciones de los parámetros / estandarizado de residuos y tomar en cuenta, en cierta medida, la imprecisión en las estimaciones de los parámetros de sí mismos.

Si usted genere $K$ bootstrap estimaciones en los pasos 1 y 2, se han generado $KM$ total de la muestra caminos al final del ejercicio. Cómo se debe dividir entre los $K$ $M$ depende en cierta medida de los diversos computacional cargas involucradas, sino también en el funcionamiento de las contribuciones a la aleatoriedad se dividen entre la estimación de parámetros error y muestra la ruta de la variabilidad. Como regla general, cuanto más precisa sea su estimación de parámetros, el más pequeño $K$ puede ser; por el contrario, el menor de la muestra rutas varían para un valor dado de la estimación de parámetros, el más pequeño $M$ puede ser.

5voto

Martin Darjanin Puntos 16

Es perfectamente bien para muestras de más de 500 dibuja a partir de la distribución empírica.

El 500 estandarizada de los residuos de maquillaje de la distribución empírica de que una muestra de realizaciones de $z_{t+h}$ que se necesita para multi-paso pronóstico. En un paso adelante en el caso de que no se basa son necesarios ya que la volatilidad condicional en el momento $t+1$ es conocido basado en la informationset en el tiempo $t$.

Como usted bien hacer, una de las muestras con reemplazo de la distribución empírica. Por lo tanto, usted puede obtener muchas ventajas como usted desea. Usted sólo tiene que pensar de la distribución empírica de la misma manera como si se dibuja a partir de un supuesto iid N(0,1).

Simulación basada en pronósticos están basados en la media de la simulación de la volatilidad de los caminos. Al aumentar el número de simulaciones, la media será más cercano a la "verdad" de la previsión. Un ejercicio interesante será suponer $z_t$ iid N(0,1) y compararla con la analítica GARCH de previsión con un gran número de muestras bootstrap, los dos pronósticos serán idénticos.

Un enfoque alternativo es el de ajustarse a una distribución paramétrica o no paramétrica, a los obtenidos de residuos estandarizados y sacar de eso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X