6 votos

Pruebas de hipótesis múltiples

Supongamos que tengo datos de series temporales para $(X,Y_i)$ , variables independientes y dependientes, respectivamente, que varían en el tiempo $t=1,...,1000$ . Tengo datos sobre $Y_i$ para 100 personas/ciudades/etc. $i=1,...100$ . Así, cada uno de estos 100 $Y$ es una serie temporal y tiene 1000 puntos de datos. $X$ es común a todos los individuos y también varía con el tiempo.

Hago 100 regresiones de $Y_i$ en $X$ uno para cada $i$ . Encuentro que 1 de esas regresiones es significativa en, digamos, $\alpha=10\%$ nivel.

Dado que la probabilidad bajo una binomial con m=100 ensayos y probabilidad de éxito ( $\alpha = 10\%$ ) de tener al menos un éxito (un falso positivo) es casi 1, esto no significa mucho. La probabilidad de que haya al menos un falso positivo en una de mis 100 regresiones es casi 1.

Una forma común de hacerlo es utilizar una corrección del tipo Bonferroni que exigiría el uso de un $\alpha / m$ nivel de significación.

Sin embargo, la probabilidad de encontrar más de 15 falsos positivos es $7.25\%$ que en realidad es inferior a $10\%$ . Por lo tanto, si hubiera encontrado más de 15 coeficientes significativos en mis 100 regresiones, podría estar relativamente seguro de que no estaba ante un resultado casual.

¿Está justificado este razonamiento o no? De hecho, en el sentido de disminuir el error de tipo I, mi razonamiento sugeriría que estaría más seguro de no estar obteniendo falsos positivos si encontrara 15/100 coeficientes significativos en el $10\%$ nivel comparado con la situación en la que obtengo 1/1 coeficiente significativo en una sola regresión en el $10\%$ nivel. En tal caso, me inclinaría a decir que una corrección de Bonferroni no tendría sentido (sería innecesaria).

Un poco más de detalle como se pide:

Realizo 100 regresiones de series temporales de la forma (una para cada $i$ ):

$Y_{i,t} = \alpha + \beta_iX_t$ , $i=1,2,3,...,100$

$Y_{i,t}$ es la felicidad del país $i$ en el mes $t$ . $X_{t}$ es el PIB mundial.

Tenga en cuenta que no se trata de países de apilamiento de paneles. Se trata de una regresión de series temporales por país. Por ejemplo, para China:

$Y_{china,t} = \alpha + \beta_{china}X_t$

Rechazo la nula de que $\beta_i= 0$ al nivel del 10% para algunos países $i$ y no otros.

La probabilidad de que en 100 ensayos rechace al menos uno por azar, es del 99% bajo una distribución binominal con probabilidad de éxito (falso positivo) de $10\%$ y 100 pruebas. Por lo tanto, si encontrara 1 de cada 100 coeficientes significativos, la probabilidad de error de tipo I es casi 1: de cada 100 intentos, esperaría casi seguramente al menos un falso positivo de todos modos. Así que no debería rechazar la nula de que $\beta_i= 0$ para ese país, aunque pase la prueba de significación individual al nivel del 10\%.

Ahora, supongamos que en lugar de 1 rechazo, soy capaz de rechazar el nulo para 15 países. La probabilidad de que en 100 ensayos rechace al menos 15 por azar, es $7.25%$ bajo una distribución binominal con una probabilidad de éxito (falso positivo) del 10% y 100 ensayos. Por lo tanto, me siento tentado a concluir que, dado que estoy dispuesto a vivir con una probabilidad de error de tipo I del 10% (basta con suponerlo), puedo rechazar de hecho el nulo $\beta_i= 0$ para esos 15 países y, efectivamente, decir que tengo pruebas de que x está asociado a y.

Por lo tanto, lo que digo es que no entiendo por qué aplicaría una corrección de Bonferroni o FDR en este escenario. Si sólo tengo un coeficiente significativo de 100, no puedo confiar en él porque lo esperaría con probabilidad 1. Necesitaría algún tipo de corrección (como la de Bonferroni). Pero si tengo 15 coeficientes significativos, puedo confiar más en él, ya que la probabilidad de observarlo por casualidad es inferior al 10\%. No necesito ninguna corrección. Tomemos el caso extremo: en lugar de 15, los 100 coeficientes son individualmente significativos al nivel del 10\%. La probabilidad de que al menos 100 coeficientes de 100 sean significativos (bajo la binomial) es casi del 0%. No podría estar más seguro de que mis resultados no se deben a un error de tipo I. ¿Por qué querría ajustar o corregir algo?

Mi pregunta es simplemente: ¿es este razonamiento erróneo o correcto? Afirmo que no necesito una corrección. ¿Si, o no? Si es no, dónde está el error en mi razonamiento. Gracias.

Nuevo complemento como respuesta a greg (sin espacio en el comentario):

¡Gracias Greg! Impresionante explicación perspicaz. Sólo que sigo confundido sobre por qué es un problema tan grande asumir que todas las hipótesis nulas son verdaderas. ¿No es eso lo que hacemos cuando calculamos los valores p: la probabilidad de observar un valor más extremo que el que estimamos, dado que la nula es verdadera? Mi idea es básicamente derivar un valor p conjunto definiendo una probabilidad de observar 15 valores más extremos que los 15 que estimé a través de 100 regresiones, dado que las 100 hipótesis nulas son verdaderas (el peor escenario en el que todo es insignificante).

Si entiendo bien su explicación, el problema de mi planteamiento sería que, centrándose sólo en el error de tipo I, por ejemplo, quizá 7 hipótesis nulas sean verdaderas y 8 falsas. Rechazo 15, por lo que tengo 7 falsos positivos. La probabilidad de tener al menos 7 falsos positivos de 92 coeficientes es del 82%, lo que es mucho mayor que el nivel deseado del 10% que me gustaría. ¿Es esto correcto?

1 votos

¿De dónde vienen los 15 falsos positivos? No entiendo muy bien la pregunta. Si se realizaran 100 regresiones y todas fueran significativas, no sería necesaria la corrección de Bonferroni. ¿Es eso lo que está preguntando?

0 votos

¿A qué se refiere cuando dice que una de esas regresiones es significativa? ¿Es X sólo una variable o una matriz?

1 votos

Es difícil responder a su pregunta sin más detalles sobre cuáles son exactamente esas pruebas de hipótesis y cuáles son sus prioridades de investigación. Pero parece que lo que quieres hacer es buscar información sobre la "tasa de falsos descubrimientos". Las correcciones de Bonferroni y otras similares tienen como objetivo controlar la "tasa de error familiar", o la probabilidad de un error de tipo I (por ejemplo, el 5%). Sin embargo, la tasa de falsos descubrimientos (FDR) tiene como objetivo controlar la PROPORCIÓN de resultados positivos que son errores de tipo I. Por lo tanto, permite que una parte de los resultados sean errores de tipo I. Esto se parece a lo que usted pregunta.

5voto

Eero Puntos 1612

Su pensamiento es correcto, pero parece que también tiene que aprender más. Este es un tema al que puedes dedicar mucho tiempo (mucho más del que realmente se puede responder en este tipo de foro). Te sugiero la página de Wikipedia https://en.wikipedia.org/wiki/Multiple_comparisons_problem como punto de partida, y luego siga los enlaces y lea las referencias a partir de ahí.

Se sabe que el Bonferroni es conservador en la mayoría de los casos (sobreajusta para que la probabilidad real de obtener cualquier error de tipo I sea menor que la tasa objetivo, como se calculó con el 7,25% en comparación con el 10%). La Tasa de Falsos Descubrimientos y otras se están haciendo más populares, pero requieren pensar en ello de forma un poco diferente.

La mayoría de las correcciones estándar se limitan a aumentar el valor p o a ampliar los intervalos de confianza para tener en cuenta la variabilidad adicional de las pruebas múltiples. Pero no hacen nada para tener en cuenta que las estimaciones más "significativas" pueden estar desviadas del valor nulo por azar.

Existen métodos de regresión penalizados (ridge, lasso, etc.) que sesgan las estimaciones extremas hacia 0 (el nulo) en un intento de contrarrestar el sesgo de comparación múltiple, pero estos no proporcionan bonitos valores p o intervalos de confianza simples (pero pueden ser muy buenos para el modelado de predicciones y la exploración general).

Los modelos jerárquicos bayesianos ofrecen otra opción para la inferencia en la que se ajustan todos los modelos juntos y se les deja aprender unos de otros. Esto también lleva las estimaciones extremas hacia el centro para obtener un modelo más significativo.

Editar para la pregunta ampliada.

La forma en que está redactada su pregunta ampliada indica que sigue sin comprender algunos fundamentos de las pruebas de hipótesis frecuentistas.

Todos tus cálculos están condicionados al número de hipótesis que son realmente verdaderas o falsas (sólo no observadas). Hablas de que la probabilidad de rechazar al menos una hipótesis de 100 por azar es del 99%, pero eso es sólo si todas las hipótesis nulas son verdaderas. Si todas son falsas, entonces la probabilidad de rechazar alguna sólo por azar es del 0%. Si la mitad son verdaderas y la otra mitad son falsas, la probabilidad de rechazarlas por azar está entre el 0% y el 99%.

Estás parcialmente en lo cierto en cuanto a que si rechazas un nulo de cada 100 eso puede explicarse fácilmente porque ese (y otros) sean verdaderos y sólo el azar te haya dado significación. Pero también es posible que esa nulidad sea falsa y que la hayas rechazado correctamente. Incluso es posible que muchos de los otros nulos también sean falsos y al no rechazarlos haya cometido errores de tipo II. Así que, básicamente, en este caso hay muchas posibilidades y no has descartado ninguna de ellas.

Hablas de la probabilidad de haber cometido un error de tipo I condicionado al rechazo de hipótesis, pero no puedes hacer eso bajo la teoría frecuentista. Cada hipótesis nula es verdadera o falsa (sólo se desconoce cuál), por lo que la probabilidad de haber cometido un error de tipo I es del 0% o del 100% (sólo se desconoce cuál). Si 15 de las 100 son significativas, esto podría deberse a que las 15 nulas eran falsas y usted tomó decisiones correctas, a que las 15 nulas eran verdaderas y usted cometió un error de tipo I (esto es poco probable debido al azar, pero aún es posible), o a que algún subconjunto de las 15 son verdaderas y el resto falsas. Parte de la idea de la tasa de falsos descubrimientos es decir que sé que voy a rechazar falsamente algunos nulos (y posiblemente rechazar correctamente algunos en el proceso también) sólo quiero limitar cuántos falsos positivos voy a encontrar (en promedio). Si tengo la tasa de falsos descubrimientos fijada en el 10% y rechazo 15 de cada 100 nulos, esto implicaría que 10 de esos rechazos son falsos positivos y 5 son verdaderos positivos (pero esto es en promedio, por lo que podría ser 9 y 6, u 11 y 4, o cualquier otra combinación). La pregunta de seguimiento habitual es entonces "¿cuáles son los 5 reales?" y la respuesta es "No se sabe".

Ahora bien, si tu objetivo es sólo decir "al menos 1 pendiente no es igual a 0" y no te importa específicamente cuál, entonces tus cálculos binomiales pueden funcionar y puedes decir que 15 de 100 es poco probable si todos los nulos fueran verdaderos, así que rechazas el nulo compuesto de que todos los 100 sean verdaderos. Esta es una forma de ajuste de comparaciones múltiples (basada en supuestos diferentes a los de Bonferroni, pero aún así legítima si estás contento con los supuestos, esta es una forma de meta-análisis). Tu pregunta final es que crees que no necesitas una corrección, pero hiciste una corrección, sólo que diferente a la de Bonferroni (no necesitas el Bonferroni además de lo que hiciste).

Pero tenga en cuenta que sus estimaciones de la pendiente (condicionadas al rechazo de la nulidad) están probablemente sesgadas lejos de 0. Puede comprobarlo usted mismo con algunas simulaciones.

Aquí hay un simple código R:

set.seed(1)
x <- 1:25
y <- replicate(100, y <- 2 + 1*x + rnorm(length(x),0,65), simplify=FALSE)

betas <- sapply(y, function(yy) {
  coef(summary(lm(yy ~ x)))[2,c(1,4)]
})

# how many significant at alpha=0.1
sum(betas[2,] <= 0.1)

# all betas (true beta = 1)
hist(betas[1,])
summary(betas[1,])

# Just the "significant" ones (remember true beta=1)
hist(betas[1, betas[2,] <= 0.1])
summary(betas[1, betas[2,] <= 0.1])

En este caso, todas las pendientes son 1, se ajustan 100 regresiones y 16 tienen valores p inferiores a 0,1. Si miras el resumen de todas las pendientes, están centradas cerca de 1, pero si sólo miras las "significativas", entonces todas son mayores de 2, un poco de sesgo. Puedes cambiar la semilla y otras piezas de esta simulación y probarla varias veces por ti mismo. El sesgo no es un problema si sólo quieres decir que al menos una pendiente no es 0, pero en cuanto empieces a intentar predecir nuevos valores o interpretar alguna de las pendientes "significativas", esto será un problema.

Si hablas de la probabilidad de que la hipótesis nula sea falsa (o verdadera), entonces estás empezando a pensar más en la línea bayesiana que en la frecuencial. En ese caso, es mejor hacer un enfoque bayesiano completo (si se hace correctamente, también puede ayudar con el sesgo en las estimaciones de la pendiente). Pero debería hacer el enfoque bayesiano correctamente con una prioridad significativa (esto requiere cierta reflexión).

Edición 2

Tal vez estas dos referencias le ayuden:

https://www.sciencedirect.com/science/article/pii/S0140673605664616 https://www.sciencedirect.com/science/article/pii/S0140673605665166

0 votos

Gracias Greg. Sigo tu consejo. Sin embargo, podrías ser más explícito en cuanto a si estás de acuerdo con mi afirmación: "Sin embargo, la probabilidad de encontrar más de 15 falsos positivos es del 7,25%, que en realidad es inferior al 10% . Por lo tanto, si hubiera encontrado más de 15 coeficientes significativos en mis 100 regresiones, podría estar relativamente seguro de no estar ante un resultado fortuito". Gracias.

0 votos

Greg. Acabo de ampliar la pregunta. He reformulado la pregunta cuidadosamente en términos muy sencillos para que quede claro. Creo que antes no estaba muy clara. Gracias.

0 votos

@DanielPinto, he añadido a mi respuesta, ver arriba.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X