1 votos

Posibles problemas al realizar pruebas de hipótesis sobre un gran número de variables

Me encuentro con esta pregunta en una entrevista.

Estábamos hablando de las pruebas AB sobre una variable categórica y esta fue la pregunta de seguimiento: ¿y si ahora en lugar de una variable queremos probar 100 variables? ¿Cuáles son los problemas potenciales que pueden surgir en las pruebas de hipótesis si tenemos un gran número de variables y cómo abordamos la cuestión?

1voto

Dave Puntos 76

Voy a exponer algunas reflexiones sobre las tres cuestiones que he planteado.

100 covariables

El problema es que se necesitan muchos datos para obtener estimaciones fiables de los parámetros de la regresión. De lo contrario, su modelo puede ajustarse en exceso, lo que significa que básicamente está adivinando cuando hace inferencia sobre el parámetro de grupo. Una solución es recopilar más datos o ser más decisivo en cuanto a las covariables que más importan. No arrojes algo a la regresión sólo porque lo tienes.

Distribuciones de 100 variables

(La intuición que subyace a esto proviene de la teoría de Hotelling $T^2$ prueba).

Si sus distribuciones multivariantes tienen diferencias significativas en una sola distribución marginal, entonces ésta puede quedar ahogada por las pequeñas diferencias. Siendo más técnicos al respecto, y utilizando la prueba T^2 de Hotelling como ejemplo, se aumentan los grados de libertad sin aumentar el valor de la estadística de la prueba lo suficiente como para justificar dicho aumento. (Sin embargo, si dos distribuciones son iguales, entonces sus distribuciones marginales deben ser iguales). Una solución es, de nuevo, ser más decisivo sobre qué variables importan más. No hay que arrojar algo al problema sólo porque se tiene. Otra solución es hacer pruebas marginales para ver qué variables no contribuyen. Sin embargo, entonces estás haciendo muchas comparaciones, lo que lleva a...

100 pruebas univariantes

Creo que esto es lo que querías decir. Hay muchas maneras de abordar esto. La más sencilla es una corrección de Bonferroni, en la que se comprueba en el $\alpha/k$ -nivel si quiere hacer $k$ -muchos (como $100$ ) en el $\alpha$ -(como $0.05$ ). Existen varias mejoras de Bonferroni. Una de ellas es Bonferroni-Holm, que domina a Bonferroni en el sentido de que nunca tiene un rendimiento peor, sino que a veces lo tiene mejor. La única razón para utilizar Bonferroni es la comodidad del cálculo. Un método más sofisticado es el de Benjamini-Hochberg para controlar la tasa de falsos descubrimientos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X