19 votos

¿Es problemático el bootstrap en muestras pequeñas?

En "3 cosas que me molestan" (1988), Ed Leamer escribe:

Las estimaciones bootstrap de los errores estándar se basan en el supuesto de que la muestra observada es igual a la distribución verdadera, lo que está bien asintóticamente. Pero una muestra de tamaño $n$ implica una distribución con $n$ puntos de masa, que es bastante diferente de la verdadera distribución si $n$ es pequeño. ¿Para qué tamaños de muestra y qué poblaciones parentales son correctas las estimaciones bootstrap?

Tenía la impresión de que uno de los principales usos del bootstrap en estadística y econometría es precisamente en muestras pequeñas. Allí, se utiliza una distribución bootstrap cuando no se dispone de una distribución analítica y la muestra es demasiado pequeña para que la distribución asintótica sea una buena aproximación de la misma. Esto hace que la crítica de Ed Leamer sea bastante pertinente e interesante. Pero quizá mi impresión sea errónea y esté malinterpretando las cosas.

Q: ¿Es ésta una crítica válida? En caso afirmativo, ¿se ha estudiado el problema en detalle? ¿Se ha propuesto alguna solución?

2voto

Jack Shephard Puntos 3

Mi respuesta corta sería: Sí, si las muestras son muy pequeñas, esto puede ser definitivamente un problema, ya que la muestra puede no contener suficiente información para obtener una buena estimación del parámetro poblacional deseado. Este problema afecta a todos los métodos estadísticos, no sólo al bootstrap.

La buena noticia, sin embargo, es que "pequeño" puede ser menor de lo que la mayoría de la gente (con conocimientos sobre el comportamiento asintótico y el Teorema Central del Límite) supondría intuitivamente. Aquí, por supuesto, me refiero al bootstrap normal (ingenuo) sin datos dependientes ni otras peculiaridades. Según Michael Chernick, autor de 'Bootstrap Methods: A guide for Practitioners and Researchers', pequeño puede ser tan pequeño como N=4.

Pero este número de muestras bootstrap distintas se hace grande muy rápidamente. Así que esto no es un problema incluso para tamaños de muestra tan pequeños como 8.

Como referencia, véase la magnífica respuesta de Chernick a una pregunta muy similar: Determinación del tamaño de muestra necesario para el método bootstrap / Método propuesto

Por supuesto, los tamaños de muestra sugeridos están sujetos a incertidumbre y no puede especificarse un umbral universal para un tamaño de muestra mínimo. Por tanto, Chernick sugiere aumentar el tamaño de la muestra y estudiar el comportamiento de la convergencia. Creo que es un planteamiento muy razonable.

Aquí tienes otra cita de la misma respuesta, que de alguna manera aborda la premisa que citaste inicialmente:

Que se cumpla o no el principio bootstrap no depende de que una muestra individual "parezca representativa de la población". De lo que sí depende es de lo que se esté estimando y de algunas propiedades de la distribución de la población (por ejemplo, funciona para muestrear medias con distribuciones de población que tienen varianzas finitas, pero no cuando tienen varianzas infinitas). No funcionará para estimar extremos, independientemente de la distribución de la población.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X