Estoy trabajando en un modelo predictivo de costes en el que la edad del paciente (una cantidad entera medida en años) es una de las variables predictivas. Se observa una fuerte relación no lineal entre la edad y el riesgo de una estancia hospitalaria:
Estoy considerando un spline de suavización de regresión penalizada para la edad del paciente. Según Los elementos del aprendizaje estadístico (Hastie et al, 2009, p.151), la colocación óptima de los nudos es un nudo por cada valor único de la edad del miembro.
Dado que mantengo la edad como un número entero, ¿el spline de suavizado penalizado equivale a ejecutar una regresión de cresta o un lazo con 101 variables indicadoras de edad distintas, una por cada valor de edad encontrado en el conjunto de datos (menos uno como referencia)? Así se evita la sobreparametrización, ya que los coeficientes de cada indicador de edad se reducen a cero.
0 votos
Su propuesta de indicadores de edad + contracción es esencialmente lo mismo que un spline de suavizado de orden 0.
0 votos
Sería útil que especificaras cuáles son las otras variables predictivas, como sugirió una de las respuestas, si controlas el motivo de admisión podrías tener un gráfico muy diferente.