Realicé 160 regresiones con diversas combinaciones de conjuntos de datos, predictores y variables dependientes. Ahora estoy tratando de cribar los resultados y separar los buenos modelos que son "reales" de los que se deben al azar. Mi profesor me ha enviado esta viñeta. Parece insinuar que al utilizar $\alpha = 0.05$ es muy probable que obtenga significación en 20 conjuntos de datos.
Preguntas:
-
Los datos aleatorios tienen una probabilidad de 0,05 de ser significativos en $\alpha = 0.05$ ?
-
En otras palabras:
$$\Pr(sig>0.05|n=20) = 1 -(1-0.05)^{20} = 0.6415$$
No es exactamente una garantía como sugiere la caricatura.
¿Es cierto el cálculo anterior para las regresiones?
- ¿Existe una palabra para esta "correlación aleatoria" para que pueda investigar más?
0 votos
1. Sí, o más generalmente "si la hipótesis nula es verdadera". Los datos aleatorios no siempre significan diferencia cero o correlación cero (es decir, puedes tener datos generados aleatoriamente que estén correlacionados a r = 0,8); 2. ¿Por qué los calculas como si fueran eventos dependientes? En el dibujo animado las 20 pruebas son eventos independientes. 3. Normalmente se llama "error de tipo I" o "falso positivo".
1 votos
**Su profesor utiliza una caricatura humorística para advertirle de la trampa en la que se ha metido. No intentes discutir con la caricatura en lugar de dirigirte a la advertencia. Haces bien en querer aprender más sobre el problema: semanticommunity.info/@api/deki/files/30744/ **
0 votos
Gracias @Wayne, esa presentación es sumamente clarificadora.
0 votos
Argh, pensaba que era un artículo, pero es un paquete de diapositivas. Debería haber mirado más de cerca. Espero que hayas sacado algo en claro, ya que se omiten muchos detalles en las diapositivas para dar espacio al orador para hablar. En resumen, incluso con la matemática binomial que hiciste, que no es exactamente lo que piensas, las probabilidades son casi 2:1 (0,6415 contra 0,3585) de que tengas un problema. ¿Escucharías una conferencia en la que alguien empezara con "¡las probabilidades de que lo que he encontrado sea real son de 1 entre 3!"? (Aplique sus matemáticas a sus 160 regresiones y las probabilidades explotan).
0 votos
@Wayne ,has insinuado que la matemática del binomio que hice no es correcta. ¿Por qué? ¿Es porque los ensayos no son independientes? Puedo ver cómo una regresión de X1 vs Y1 no sería independiente de una regresión de X1 vs Y2. Si este es el problema, ¿hay una manera de cuantificar la probabilidad de obtener un error de tipo I en n ensayos?
0 votos
Está calculando la probabilidad de que se produzca exactamente un suceso, en lugar de la probabilidad de que se produzcan uno o más sucesos. Y es más sutil que eso porque estamos tratando con un concepto frecuentista y $\alpha=0.05$ no significa lo que queremos que signifique. El argumento de la viñeta es que, en términos sencillos, si se permite que la prueba de significación pueda equivocarse hasta un 5% de las veces, no hay que sorprenderse cuando se equivoca un 5% de las veces (es decir, 1 de 20). De nuevo, los conceptos frecuentistas son complicados, así que técnicamente la frase anterior puede ser un error, pero como concepto está bien