Escenario :
Considere el uso de bootstrapping para estimar la distribución de los parámetros del modelo ajustado por un modelo lineal o no lineal de mínimos cuadrados generalizados. En particular, supongamos que existe una matriz de covarianza $C$ de los errores, que pueden incluso no ser diagonales, por lo que los errores pueden no ser ni independientes ni idénticamente distribuidos.
El objetivo es producir una estimación precisa de la distribución de los parámetros estimados del modelo para apoyar la inferencia o hacer predicciones que tengan en cuenta la incertidumbre. Esto se haría en la forma de "menor fidelidad" de una matriz de covarianza estimada, o mediante la generación de puntos de datos para alimentar un cálculo de verosimilitud empírica que no asuma la normalidad. Para simplificar, asumo que la matriz de covarianza $C$ se conoce con exactitud, no se estima imperfectamente.
Método Bootstrap propuesto :
Cada uno de los $n$ puntos de datos de la muestra completa se muestrea aleatoriamente con sustitución en el bootstrap con igual probabilidad. Para cada muestra bootstrap, las filas y columnas correspondientes a los puntos de datos que no se seleccionaron para la muestra se eliminan de la matriz de covarianzas, $C$ . Para cada par de puntos de datos $(i,j)$ que se incluyen al menos una vez en la muestra, esa entrada de la matriz de covarianzas para la muestra bootstrap sería la entrada correspondiente en $C$ dividido por la raíz cuadrada del producto del número de veces que los puntos de datos $i$ y $j$ aparecen en la muestra bootstrap. La estimación del parámetro de la muestra bootstrap para esa muestra bootstrap es la solución del problema de mínimos cuadrados generalizados utilizando la matriz de covarianza para esa muestra bootstrap, como se describe en la frase anterior.
Las estimaciones de los parámetros de todas las muestras bootstrap se introducen en una estimación de covarianza de la muestra no ponderada (es decir, igualmente ponderada) (u otro método). Para su uso en la verosimilitud empírica, la estimación del parámetro calculada a partir de cada muestra bootstrap se trata como un punto de datos i.i.d. (igualmente ponderado) para su uso en cálculos de verosimilitud empírica.
Discusión del método Bootstrap propuesto :
Si $C$ fueran un múltiplo escalar de la matriz identidad, es decir, los errores fueran i.i.d., creo que el método descrito está bien fundamentado. Pero no son i.i.d.. Creo que es apropiado no ponderar las probabilidades de selección de puntos de datos utilizadas para generar las muestras de datos bootstrap, o ponderar las estimaciones de parámetros calculadas para cada muestra bootstrap a través de las muestras bootstrap, porque la matriz de covarianza utilizada en el cálculo de mínimos cuadrados en cada muestra bootstrap ya está ponderada por la (inversa de) la matriz de covarianza. Un punto de datos que tiene $1/2$ En efecto, la varianza de otro punto de datos equivale a aparecer el doble de veces en la muestra bootstrap, si en lugar de ello se utilizara la misma ponderación (covarianza) en el cálculo de los mínimos cuadrados. Por lo tanto, creo que cualquier ponderación se tiene en cuenta en la matriz de covarianza. Por lo tanto, cualquier ponderación (desigual) utilizada en la probabilidad de selección para la muestra bootstrap, o ponderación para el cálculo de la covarianza de la estimación de parámetros o la verosimilitud empírica, sería "doble contabilización". Pero, ¿existe acaso una "injusticia" causada por la covarianza distinta de cero entre los puntos de datos, de modo que, debido a esta covarianza, los puntos de datos están en efecto parcialmente muestreados para las muestras bootstrap, aunque nominalmente, un punto esté o no en una muestra bootstrap? Es razonable suponer que en el mundo real, cualquiera de los puntos de datos, ya sea de baja o alta covarianza, y esté correlacionado o no con otros puntos de datos, tendría la misma probabilidad de "ocurrir" (aparecer en la muestra completa (no bootstrap)) conjunto de datos.
Generalización a puntos de datos vectoriales (mínimos cuadrados generalizados multivariantes) :
Todo es como antes, pero ahora se trata de mínimos cuadrados multivariantes, es decir, los valores de los puntos de datos del LHS son $m$ por $1$ vectores. La matriz de covarianza $C$ es ahora $m*n$ por $m*n$ y podría ser completamente general, aparte de ser psd simétrico. Los puntos de datos vectoriales se seleccionan aleatoriamente con reemplazo en la muestra bootstrap sobre una base de igual probabilidad por punto de datos vectoriales (un punto de datos vectoriales está o no en la muestra bootstrap, no parcialmente). La matriz de covarianza utilizada para una muestra bootstrap se ajusta como antes, excepto que ahora es en una base de bloque, donde hay un $m$ por $m$ por punto de datos vectoriales. Así que todas las entradas en un bloque de covarianza dado $(i,j)$ reciben el mismo factor de ajuste, que consiste en dividir por la raíz cuadrada del producto del número de veces que los puntos de datos del vector $i$ y $j$ aparecen en la muestra bootstrap Todo lo demás es como se ha descrito antes, con el mismo razonamiento.
Generalización a otros métodos distintos de los mínimos cuadrados :
En lugar de los mínimos cuadrados generalizados, se podría utilizar alguna otra función de pérdida y posiblemente factor(es) de regularización, pero con la matriz de covarianza todavía utilizada para "ponderar" según los mínimos cuadrados generalizados (como se muestra en esta respuesta ¿Existe una "norma mínima generalizada" equivalente a los mínimos cuadrados generalizados? ) Es decir, la pérdida es función de la $m * n$ residuos brutos, ajustados para que sean el producto de (inversa del factor de Cholesky de la covarianza) y los residuos brutos, es decir, para que la covarianza de los residuos ajustados sea la matriz identidad..
Método alternativo basado en el muestreo aleatorio de residuos ajustados :
Ajuste los residuos, tal y como se indica en el párrafo anterior, de modo que los residuos ajustados sean i.i.d. Muestree aleatoriamente con reemplazo los residuos para obtener una muestra bootstrap con la misma probabilidad. Realice mínimos cuadrados ordinarios en la muestra bootstrap. Creo que esto podría pervertir la naturaleza vectorial de los puntos de datos - creo que los residuos ajustados ni siquiera corresponden a puntos de datos vectoriales particulares, por lo que los residuos ajustados no pueden ser seleccionados para la muestra bootstrap sobre una base vectorial. En general, a pesar del aparente atractivo de las muestras bootstrap que se seleccionan a partir de una muestra i.i.d., no estoy "comprando" este método, al menos en el caso de puntos de datos vectoriales, que es realmente el único caso que me interesa. En ese caso, en el mundo real, un punto de datos vectorial está o no está en el conjunto de datos; no hay puntos de datos con vectores parciales.
¿Qué opinas?