Esta pregunta puede ser muy básica. Estoy ajustando un modelo GAM (para una clasificación de dos clases) con unas cuantas variables numéricas. Algunas de ellas son así:
una gran parte de los valores se establece en -999, lo que significa que no hay registro, mientras que el resto tiene valores significativos > 0
Como la parte > 0 todavía tiene cierto poder discriminatorio, no quiero eliminar estas variables del modelo. Sin embargo, cuando utilizo estas variables, mi modelo da advertencias como las siguientes:
knot range is so wide that there is *no* information about some basis coefficients
Supongo que esto se debe a que entre (-999, 0) no hay nudo. El uso de variables de esta manera puede cambiar significativamente las splines de suavizado de otras características y hacer que el ajuste sea peor.
¿Cuál es una buena práctica en esta situación? ¿Deberíamos ajustar splines sólo a la parte > 0 de estas variables?