2 votos

¿Qué umbral de valor p debo utilizar para el probit multivariable?

Tengo un probit con 7.000 observaciones y 120 variables independientes ficticias, de las cuales Stata omite 31 por ser un n bajo y 2 por colinealidad. También tengo un conjunto de cinco variables ficticias para hacer una variable temporal, además de tres variables continuas. Una de mis variables de interés sale con p=.000 -- ¡éxito! Pero otras tienen valores p de 0,022, 0,033... Lo más fácil es utilizar el umbral de 0,05, pero un colega me ha sugerido que debería utilizar un umbral más bajo porque tengo muchas variables. ¿Tiene razón, y si es así, cómo puedo averiguar qué umbral utilizar?

0voto

mark Puntos 232

El propósito de ajustar el nivel de significación es asegurarse de que el error de tipo I, es decir, la probabilidad de rechazar la hipótesis nula cuando es verdadera, no supera un nivel determinado, normalmente el umbral de 0,05.

El método más sencillo para conseguirlo es mediante el uso del llamado Corrección de Bonferroni . Supongamos entonces que su objetivo es controlar el error de tipo I a 0,05. Lo que esto dice esencialmente es que, si usted tiene los valores p de una serie de pruebas, $P_1,P_2,\ldots,P_n$ , entonces usted rechaza cada hipótesis nula si y sólo si

$$P_i \leq \frac{0.05}{n}$$

Es decir, se divide el nivel de significación por el número de pruebas individuales que se miran. Seguro que ésta es la razón por la que su colega sugirió una probabilidad más baja. Vale la pena mencionar que la corrección es aplicable independientemente de que las pruebas sean independientes o no, y en su caso no lo son.

La sencillez de este procedimiento es sin duda una ventaja, pero no está exenta de inconvenientes. El más importante es que el procedimiento puede acabar siendo muy conservador. En pocas palabras, el error de tipo I alcanzado podría ser mucho menor que el 0,05 que se pretendía.

Por esta razón, le aconsejo que utilice una prueba global en su lugar, una prueba de razón de verosimilitud en el caso de un modelo lineal generalizado. Esta prueba le asegurará un nivel de significación de 0,05 y, lo que es más importante, como tiene en cuenta la estructura de covarianza del modelo, también será más potente, es decir, rechazará la hipótesis nula con mayor probabilidad cuando sea falsa.

No tengo ni idea de cómo implementar un LRT en Stata, pero tal vez pueda buscarlo. Probablemente también puedas llevarlo a cabo utilizando el estadístico de desviación.

Espero que esto ayude.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X