1 votos

IV al cuadrado en la regresión logística del lazo

Utilizo la regresión logística del lazo y quiero probar la influencia de una variable suqarada (X1^2) en el resultado.

Supongamos que pongo todas las variables en mi modelo y se ve algo así:

Y (0/1)

  1. X1
  2. X1^2
  3. X2
  4. X3

Cuando ahora realizo una regresión lasso, las variables X2 y X3 permanecen en el modelo. Sin embargo, la variable X1 es expulsada (cero) y X1^2 permanece en el modelo. Supongamos que es algo así.

  1. 0
  2. 0.34
  3. 0.67
  4. 0.12

Pregunta 1: ¿He implementado correctamente la variable al cuadrado (X1 y X1^2)?

Pregunta 2: ¿Tiene sentido que X1 esté fuera del modelo y que X1^2 esté en el modelo? ¿Se puede interpretar esto?

Pregunta 3: ¿Debo fijar X1 a un determinado nivel, o protegerlo de la contracción?

1voto

alexs77 Puntos 36

Tengo dos opiniones al respecto. En un enfoque de modelización tradicional, nunca se incluiría una característica del producto sin incluir sus características de nivel inferior, y en el caso de una característica cuadrática eso significa que se incluiría también la característica lineal. Esto preserva la interpretación de los coeficientes, que es valiosa para la inferencia.

LASSO difiere de la regresión tradicional en dos aspectos: en primer lugar, se centra en la predicción y, en segundo lugar (lo que es más importante), un valor cero para un coeficiente no refleja la creencia de que no hay asociación con el resultado de interés; en su lugar, simplemente dice que el efecto es tan pequeño que es efectivamente cero. En ambos casos, tenemos una razón para tener coeficientes de valor cero para las características de nivel inferior.

Por otro lado, me preocupa que hayamos introducido algunos problemas de validez interna. Como sabemos en el análisis de series temporales, los términos polinómicos de nivel superior tienen tendencia a "hincharse" hacia fuera cuando una tendencia hacia las asíntotas es un mecanismo más creíble, como en la homeostasis biológica, las curvas de crecimiento, la dinámica de la población, la economía, etc. etc. No creo que la inclusión de características de nivel inferior haga magia en este sentido, pero tengo la firme convicción de que proporcionará una mejor validez externa (es decir, en conjuntos de datos cuya estructura puede diferir notablemente de los conjuntos de datos de entrenamiento y validación).

Así que para responder a las preguntas directas:

1) No puedo decirlo, no hay código

2) Sí y no. No, no hay una interpretación creíble del término cuadrático sin el término lineal de nivel inferior. Para describir por qué LASSO obtuvo esto, se puede decir que el gradiente de la superficie cuadrática en esta variable estaba muy cerca de cero en el origen.

3) Yo recomendaría el siguiente enfoque en dos pasos: identificar las características significativas utilizando LASSO y el parámetro de ajuste CV obtenido. A continuación, vuelva a ajustar el modelo utilizando el modelo de regresión correspondiente incluyendo todos los términos significativos que identificó en el LASSO original así como los términos de nivel inferior.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X