No tengo en mente ningún ejemplo o tarea específica. Sólo soy nuevo en el uso de b-splines y quería obtener una mejor comprensión de esta función en el contexto de regresión.
Supongamos que queremos evaluar la relación entre la variable de respuesta $y$ y algunos predictores $x_1, x_2,...,x_p$ . Los predictores incluyen algunas variables numéricas y otras categóricas.
Supongamos que tras ajustar un modelo de regresión, una de las variables numéricas, por ejemplo $x_1$ es significativo. Un paso lógico posterior es evaluar si los polinomios de orden superior, por ejemplo: $x_1^2$ y $x_1^3$ para explicar adecuadamente la relación sin sobreajustar.
Mis preguntas son:
-
¿En qué momento hay que elegir entre b-splines o un polinomio simple de orden superior, por ejemplo en R?
y ~ poly(x1,3) + x2 + x3
vs
y ~ bs(x1,3) + x2 + x3
-
¿Cómo se pueden utilizar los gráficos para decidir entre una u otra opción y qué ocurre si no queda claro a partir de los gráficos (por ejemplo, debido a la gran cantidad de puntos de datos)?
-
¿Cómo evaluaría los términos de interacción bidireccional entre $x_2$ y digamos $x_3$
-
¿Cómo cambia lo anterior para los distintos tipos de modelos?
-
¿Considerarías no utilizar nunca polinomios de alto orden y ajustar siempre b-splines y penalizar la alta flexibilidad?
12 votos
Escribí extensamente sobre esto aquí: madrury.github.io/jekyll/update/statistics/2017/08/04/
1 votos
Dado lo bien desarrollado
mgcv
es, por qué no utilizar modelos aditivos (generalizados). La selección de la suavidad es automática y los métodos inferenciales están bien desarrollados.