Supongamos que tengo datos de series temporales para $(X,Y_i)$ , variables independientes y dependientes, respectivamente, que varían en el tiempo $t=1,...,1000$ . Tengo datos sobre $Y_i$ para 100 personas/ciudades/etc. $i=1,...100$ . Así, cada uno de estos 100 $Y$ es una serie temporal y tiene 1000 puntos de datos. $X$ es común a todos los individuos y también varía con el tiempo.
Hago 100 regresiones de $Y_i$ en $X$ uno para cada $i$ . Encuentro que 1 de esas regresiones es significativa en, digamos, $\alpha=10\%$ nivel.
Dado que la probabilidad bajo una binomial con m=100 ensayos y probabilidad de éxito ( $\alpha = 10\%$ ) de tener al menos un éxito (un falso positivo) es casi 1, esto no significa mucho. La probabilidad de que haya al menos un falso positivo en una de mis 100 regresiones es casi 1.
Una forma común de hacerlo es utilizar una corrección del tipo Bonferroni que exigiría el uso de un $\alpha / m$ nivel de significación.
Sin embargo, la probabilidad de encontrar más de 15 falsos positivos es $7.25\%$ que en realidad es inferior a $10\%$ . Por lo tanto, si hubiera encontrado más de 15 coeficientes significativos en mis 100 regresiones, podría estar relativamente seguro de que no estaba ante un resultado casual.
¿Está justificado este razonamiento o no? De hecho, en el sentido de disminuir el error de tipo I, mi razonamiento sugeriría que estaría más seguro de no estar obteniendo falsos positivos si encontrara 15/100 coeficientes significativos en el $10\%$ nivel comparado con la situación en la que obtengo 1/1 coeficiente significativo en una sola regresión en el $10\%$ nivel. En tal caso, me inclinaría a decir que una corrección de Bonferroni no tendría sentido (sería innecesaria).
Un poco más de detalle como se pide:
Realizo 100 regresiones de series temporales de la forma (una para cada $i$ ):
$Y_{i,t} = \alpha + \beta_iX_t$ , $i=1,2,3,...,100$
$Y_{i,t}$ es la felicidad del país $i$ en el mes $t$ . $X_{t}$ es el PIB mundial.
Tenga en cuenta que no se trata de países de apilamiento de paneles. Se trata de una regresión de series temporales por país. Por ejemplo, para China:
$Y_{china,t} = \alpha + \beta_{china}X_t$
Rechazo la nula de que $\beta_i= 0$ al nivel del 10% para algunos países $i$ y no otros.
La probabilidad de que en 100 ensayos rechace al menos uno por azar, es del 99% bajo una distribución binominal con probabilidad de éxito (falso positivo) de $10\%$ y 100 pruebas. Por lo tanto, si encontrara 1 de cada 100 coeficientes significativos, la probabilidad de error de tipo I es casi 1: de cada 100 intentos, esperaría casi seguramente al menos un falso positivo de todos modos. Así que no debería rechazar la nula de que $\beta_i= 0$ para ese país, aunque pase la prueba de significación individual al nivel del 10\%.
Ahora, supongamos que en lugar de 1 rechazo, soy capaz de rechazar el nulo para 15 países. La probabilidad de que en 100 ensayos rechace al menos 15 por azar, es $7.25%$ bajo una distribución binominal con una probabilidad de éxito (falso positivo) del 10% y 100 ensayos. Por lo tanto, me siento tentado a concluir que, dado que estoy dispuesto a vivir con una probabilidad de error de tipo I del 10% (basta con suponerlo), puedo rechazar de hecho el nulo $\beta_i= 0$ para esos 15 países y, efectivamente, decir que tengo pruebas de que x está asociado a y.
Por lo tanto, lo que digo es que no entiendo por qué aplicaría una corrección de Bonferroni o FDR en este escenario. Si sólo tengo un coeficiente significativo de 100, no puedo confiar en él porque lo esperaría con probabilidad 1. Necesitaría algún tipo de corrección (como la de Bonferroni). Pero si tengo 15 coeficientes significativos, puedo confiar más en él, ya que la probabilidad de observarlo por casualidad es inferior al 10\%. No necesito ninguna corrección. Tomemos el caso extremo: en lugar de 15, los 100 coeficientes son individualmente significativos al nivel del 10\%. La probabilidad de que al menos 100 coeficientes de 100 sean significativos (bajo la binomial) es casi del 0%. No podría estar más seguro de que mis resultados no se deben a un error de tipo I. ¿Por qué querría ajustar o corregir algo?
Mi pregunta es simplemente: ¿es este razonamiento erróneo o correcto? Afirmo que no necesito una corrección. ¿Si, o no? Si es no, dónde está el error en mi razonamiento. Gracias.
Nuevo complemento como respuesta a greg (sin espacio en el comentario):
¡Gracias Greg! Impresionante explicación perspicaz. Sólo que sigo confundido sobre por qué es un problema tan grande asumir que todas las hipótesis nulas son verdaderas. ¿No es eso lo que hacemos cuando calculamos los valores p: la probabilidad de observar un valor más extremo que el que estimamos, dado que la nula es verdadera? Mi idea es básicamente derivar un valor p conjunto definiendo una probabilidad de observar 15 valores más extremos que los 15 que estimé a través de 100 regresiones, dado que las 100 hipótesis nulas son verdaderas (el peor escenario en el que todo es insignificante).
Si entiendo bien su explicación, el problema de mi planteamiento sería que, centrándose sólo en el error de tipo I, por ejemplo, quizá 7 hipótesis nulas sean verdaderas y 8 falsas. Rechazo 15, por lo que tengo 7 falsos positivos. La probabilidad de tener al menos 7 falsos positivos de 92 coeficientes es del 82%, lo que es mucho mayor que el nivel deseado del 10% que me gustaría. ¿Es esto correcto?
1 votos
¿De dónde vienen los 15 falsos positivos? No entiendo muy bien la pregunta. Si se realizaran 100 regresiones y todas fueran significativas, no sería necesaria la corrección de Bonferroni. ¿Es eso lo que está preguntando?
0 votos
¿A qué se refiere cuando dice que una de esas regresiones es significativa? ¿Es X sólo una variable o una matriz?
1 votos
Es difícil responder a su pregunta sin más detalles sobre cuáles son exactamente esas pruebas de hipótesis y cuáles son sus prioridades de investigación. Pero parece que lo que quieres hacer es buscar información sobre la "tasa de falsos descubrimientos". Las correcciones de Bonferroni y otras similares tienen como objetivo controlar la "tasa de error familiar", o la probabilidad de un error de tipo I (por ejemplo, el 5%). Sin embargo, la tasa de falsos descubrimientos (FDR) tiene como objetivo controlar la PROPORCIÓN de resultados positivos que son errores de tipo I. Por lo tanto, permite que una parte de los resultados sean errores de tipo I. Esto se parece a lo que usted pregunta.
0 votos
@RyanSimmons - es posible que desee ampliar esto en una respuesta, ya que me parece que aborda la cuestión clave que el OP está luchando con.
0 votos
@rinspy los 15 falsos positivos fue un número al azar que se me ocurrió. Sólo quería un número x para el que la probabilidad de encontrar x o más falsos positivos (Bajo la distribución binomial) sea inferior al 10%.
0 votos
@RiccardoLavelli Tengo 100 regresiones como $y_i = \alpha + \beta_i X$ donde "i=1,2,3,...100" indexa la regresión. Por lo tanto, obtengo 100 coeficientes beta_i así como sus errores estándar. al dividir el coeficiente por el error estándar obtengo una t-stat que puedo utilizar para probar el nulo "\beta_i=0" para cada i. X es una variable.
0 votos
Acabo de añadir más detalles en el post principal. Creo que ahora debería estar muy claro.