7 votos

¿Cuáles son los (mejores) métodos de corrección de comparaciones múltiples con bootstrap para modelos glm múltiples?

Véase la pregunta relacionada, pero antigua: Corrección de los valores p para pruebas múltiples cuando las pruebas están correlacionadas (genética) .

Los métodos de comparación múltiple basados en el bootstrap tienen la ventaja de tener en cuenta la estructura de dependencia de los valores p. Sin embargo, los modelos de regresión son un poco más difíciles de aplicar mediante bootstrap. Se han propuesto varios métodos. He encontrado al menos tres formas de ajustar los valores p en este tipo de problemas.

En mi opinión, no hay una única "mejor" solución. La cuestión es: ¿qué métodos existen y cuáles son las ventajas/desventajas de cada uno?

Propongo las siguientes definiciones:

$\vec{\theta_0}$ es el vector de los valores hipotéticos de los parámetros, que se asume bajo la hipótesis nula completa.

$\hat{\vec{\theta}}$ es un estimador de los parámetros, calculado sobre la muestra original.

$\hat{\vec{\theta}^*}$ es un estimador de los parámetros, calculado sobre una de las muestras bootstrap.

$T$ , $T^*$ son estadísticas pivotantes calculadas sobre los datos originales y la muestra bootstrap. Se supone que todos los estadísticos pivotantes son Wald, es decir $T = \frac{\theta}{\operatorname{SE}\theta}$ .

$m$ es el número de términos de interés en todas las regresiones.

3voto

Eric L Puntos 86

Método 1: bootstrap ingenuo

  1. Calcule el $\hat{\vec{\theta}}$ en cada muestra bootstrap. De este modo, conoceremos la variabilidad natural (esperada) de los estadísticos de la prueba.
  2. El valor p ajustado es el 1 - porcentaje de casos en los que $\hat{\theta} > \theta_0$ (o $\hat{\theta} < \theta_0$ o $\left|\frac{\hat{\theta}}{\theta_0}\right| > 1$ la forma depende de la naturaleza de $\theta$ parámetro. Debería dar como resultado verdadero para que el resultado del bootstrap sea "más significativo" que la referencia).

Este método viola las dos directrices indicadas en el artículo por Hall P. y Wilson S.R. "Two Guidelines for Bootstrap Hypothesis Testing" (1992) , por lo que le falta potencia (en nuestro caso debería ser demasiado conservadora).

Método 2: remuestreo descendente libre (MaxT) mediante estadísticas de Wald

El nombre y la descripción provienen del libro de " Applied Statistical Genetics with R (2009)" por Foulkes Andrea.

  1. Preparación para el arranque Si es posible, calcule los residuos de las regresiones, sustituyendo las variables dependientes originales. Mantenga la variable independiente sin cambios.
  2. Generar muestras bootstrap de este nuevo conjunto de datos.
  3. Reunir las estadísticas del pivote . En cada muestra, calcule los estadísticos de Wald $T^*$ . $\hat{T^*}=\frac{\hat{\vec{\theta}^*}}{\operatorname{SE}(\hat{\vec{\theta}^*})}$ . Dado que todos fueron calculados bajo nulidad completa (porque la variable dependiente es de hecho un residuo de regresión), podemos tratarlos como un conjunto de variables aleatorias potencialmente correlacionadas y centradas en cero.
  4. El valor p ajustado para el $j$ -El coeficiente de regresión es el porcentaje de casos en los que la $\hat{T}$ es igual o menos significativo, que el $j/m$ cuantil del conjunto de $\hat{\vec{T^*}}$ valores.

El problema es que este método no funciona, cuando no se puede calcular simplemente el residuo de regresión, cuando, por ejemplo, hay muchos modelos de regresión independientes, y algunos de ellos comparten la misma variable dependiente.

Método 3: bootstrap nulo no restringido

Este método es muy similar al remuestreo de paso libre, con la diferencia de que en lugar de calcular los residuos, se ajusta el $T$ estadística:

  1. Generar muestras bootstrap del conjunto de datos.
  2. Reunir las estadísticas del pivote . En cada muestra, calcule los estadísticos de Wald $T^*$ . $\hat{T^*}=\frac{\hat{\vec{\theta}^*}-\hat{\vec{\theta}}}{\operatorname{SE}(\hat{\vec{\theta}^*})}$ . Dado que el valor esperado de $\vec{\theta}^*$ es igual a $\vec{\theta}$ podemos tratarlas como un conjunto de variables aleatorias potencialmente correlacionadas y centradas en el cero.
  3. El valor p ajustado para el $j$ -El coeficiente de regresión es el porcentaje de casos en los que la $\hat{T}$ es igual o menos significativo, que el $j/m$ cuantil del conjunto de $\hat{\vec{T^*}}$ valores.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X