Processing math: 100%

2 votos

OLS post-Lasso: ¿Qué significa la significación estadística?

Estoy haciendo OLS Post-Lasso, es decir, ejecutando una regresión Lasso en algunos datos, y luego ejecutando una regresión OLS con sólo las variables que tenían coeficientes no nulos al hacer Lasso.

¿Debo preocuparme por la significación estadística en la etapa OLS? Si es así, ¿cómo? Utilizar el umbral estándar de significación estadística me parece un poco conservador, dado que la variable ya fue preseleccionada en la primera etapa por Lasso. Para dar un ejemplo concreto, me siento incómodo diciendo que no hay suficiente evidencia para concluir que hay una correlación simplemente porque un coeficiente tiene un estadístico t de (digamos) 1,5.

2voto

Otto Kässi Puntos 143

La inferencia estadística (valores p, etc.) para el OLS posterior a la sopa va a ser inválida.

En general, sus errores estándar van a ser demasiado pequeños ya que OLS no tiene en cuenta la incertidumbre en la fase de selección del modelo. La inferencia posterior a OLS es bastante involucrado y no tengo la confianza de poder explicar todos los detalles.

Para los trabajos aplicados, tal vez quiera echar un vistazo a la Paquete HDCI y su función ?LassoOLS .

Espero que esto ayude.

PS. Aquí hay una pregunta relacionada ¿Qué sentido tiene hacer OLS después de la selección de variables LASSO?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X