9 votos

¿Selección de k nudos en el spline de suavizado de regresión equivalente a k variables categóricas?

Estoy trabajando en un modelo predictivo de costes en el que la edad del paciente (una cantidad entera medida en años) es una de las variables predictivas. Se observa una fuerte relación no lineal entre la edad y el riesgo de una estancia hospitalaria:

enter image description here

Estoy considerando un spline de suavización de regresión penalizada para la edad del paciente. Según Los elementos del aprendizaje estadístico (Hastie et al, 2009, p.151), la colocación óptima de los nudos es un nudo por cada valor único de la edad del miembro.

Dado que mantengo la edad como un número entero, ¿el spline de suavizado penalizado equivale a ejecutar una regresión de cresta o un lazo con 101 variables indicadoras de edad distintas, una por cada valor de edad encontrado en el conjunto de datos (menos uno como referencia)? Así se evita la sobreparametrización, ya que los coeficientes de cada indicador de edad se reducen a cero.

0 votos

Su propuesta de indicadores de edad + contracción es esencialmente lo mismo que un spline de suavizado de orden 0.

0 votos

Sería útil que especificaras cuáles son las otras variables predictivas, como sugirió una de las respuestas, si controlas el motivo de admisión podrías tener un gráfico muy diferente.

11voto

Erik Madsen Puntos 161

Gran pregunta. Creo que la respuesta a la pregunta que planteas - "el spline de suavizado penalizado es equivalente a ejecutar una regresión de cresta o un lazo"- es que sí. Hay una serie de fuentes que pueden proporcionar comentarios y perspectivas. Un lugar que tal vez quiera empezar es este enlace en PDF . Como se indica en las notas:

"Ajustar un modelo de splines de suavizado equivale a realizar una forma de regresión de crestas en una base de splines naturales".

Si busca una lectura general, puede que le guste consultar este excelente documento sobre las regresiones penalizadas: El puente frente al lazo . Esto podría ayudar a responder a la pregunta de si el spline de suavizado penalizado es exactamente equivalente, aunque proporciona una perspectiva más general. Me parece interesante como compararon diferentes técnicas entre sí, específicamente un nuevo modelo de regresión puente con el LASSO, así como la regresión Ridge.

Otro lugar más táctico para comprobar podría ser el notas del paquete smooth.spline en R. Nótese que aquí se insinúa la relación, al observar que "con estas definiciones, en las que la representación de la base B-spline puede establecerse como f = X c (es decir, c es el vector de coeficientes spline), la probabilidad logarítmica penalizada es $L = (y - f)^T W (y - f) + \lambda c^T \Sigma c$ y por lo tanto $c$ es la solución de la (regresión de cresta) $(X^T W X + \lambda \Sigma) c = X^T W y$ ."

0 votos

No te preocupes @RobertF. Que tengas una buena tarde.

1 votos

El enlace al PDF del párrafo 1 está roto.

3voto

Zizzencs Puntos 1358

No estoy seguro de que quieras tantos nudos, dada la trama.

Parece que tienes algunas muestras pequeñas a determinadas edades; el pico a los 74 años y los valores 0 en el extremo inferior y superior tienen poco sentido.

Dada la autoridad de la fuente que citas, ¿quizás quieras splines cúbicos restringidos en su lugar, con un número mucho menor de nudos?

1 votos

Gracias Peter - sí # de obs son escasos para los muy jóvenes y viejos. El uso de tantos nudos parece contrario a la intuición, hice una doble toma mental cuando leí por primera vez en ESL que colocar un nudo en cada observación minimiza la suma de cuadrados residual penalizada. Supongo que la prueba está en el pudín si un spline cúbico restringido o un spline de suavizado penalizado funciona mejor para predecir mi variable de respuesta en el conjunto de datos de prueba.

0voto

Ant Puntos 26

Llego tarde a esta discusión, pero mira el gráfico de los datos... ese aparente pico en los datos por encima de los 70 años no es un verdadero reflejo del riesgo relacionado con la edad, es un síntoma de datos escasos y algo de aleatoriedad.

No se querría modelar eso usando un nudo por año, eso seguramente llevaría a sobreajustar el ruido.

Además, vas a encontrar un patrón muy diferente si te fijas en las mujeres frente a los hombres. La mayor parte del pico en el rango de edad de 15 a 30 años va a ser Obstetricia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X