Por lo que he leído, los dos conceptos que nos pides que comparemos son bastante diferentes y requerirían una comparación similar a la de las manzanas y las naranjas. Esto hace que muchas de tus preguntas sean un tanto discutibles: lo ideal (suponiendo que se pueda escribir una penalización por ondulación para la base RCS en la forma requerida) sería utilizar un modelo spline de regresión cúbica restringida penalizada.
Splines cúbicos restringidos
Un spline cúbico restringido (o un spline natural) es una base de spline construida a partir de funciones polinómicas a trozos que se unen suavemente en algunos lugares preestablecidos, o nudos. Lo que distingue a un spline cúbico restringido de un spline cúbico es que se imponen restricciones adicionales a la versión restringida, de manera que el spline es lineal antes del primer nodo y después del último. Esto se hace para mejorar el rendimiento del spline en las colas de $X$ .
La selección del modelo con un RCS suele implicar la elección del número de nudos y su ubicación, siendo el primero el que rige el grado de ondulación o complejidad del spline resultante. A no ser que haya otros pasos para regularizar los coeficientes estimados durante el ajuste del modelo, el número de nudos controla directamente la complejidad del spline.
Esto significa que el usuario tiene algunos problemas que superar cuando estima un modelo que contiene uno o más términos RCS:
- ¿Cuántos nudos usar?
- Dónde colocar esos nudos en el tramo de $X$ ?,
- ¿Cómo comparar modelos con diferentes números de nudos?
Por sí solos, los términos RCS requieren la intervención del usuario para resolver estos problemas.
Splines penalizados
Las splines de regresión penalizadas (sensu Hodges) abordan por sí solas el problema 3. sólo, pero permiten la emisión 1. para ser sorteado. La idea aquí es que, además de la expansión de la base de $X$ y por ahora asumamos que se trata de una base spline cúbica, también se crea una matriz de penalización por ondulación. La ondulación se mide utilizando alguna derivada del spline estimado, siendo la derivada típica utilizada la segunda derivada, y la propia penalización representa la segunda derivada al cuadrado integrada sobre el rango de $X$ . Esta penalización puede escribirse en forma cuadrática como
$$\boldsymbol{\beta}^{\mathsf{T}} \boldsymbol{S} \boldsymbol{\beta}$$
donde $\boldsymbol{S}$ es una matriz de penalización y $\boldsymbol{\beta}$ son los coeficientes del modelo. A continuación, se encuentran los valores de los coeficientes para maximizar la log-verosimilitud penalizada $\mathcal{L}_p$ ceriterion
$$\mathcal{L}_p = \mathcal{L} - \lambda \boldsymbol{\beta}^{\mathsf{T}} \boldsymbol{S} \boldsymbol{\beta}$$
donde $\mathcal{L}$ es la log-verosimilitud del modelo y $\lambda$ es el parámetro de suavidad, que controla la intensidad con la que se penaliza la ondulación de la spline.
Como la log-verosimilitud penalizada puede evaluarse en términos de los coeficientes del modelo, el ajuste de este modelo se convierte efectivamente en un problema para encontrar un valor óptimo para $\lambda$ mientras se actualizan los coeficientes durante la búsqueda de ese óptimo $\lambda$ .
$\lambda$ puede elegirse utilizando la validación cruzada, la validación cruzada generalizada (GCV) o los criterios de probabilidad marginal o probabilidad marginal restringida. Los dos últimos refunden efectivamente el modelo spline como un modelo de efectos mixtos (las partes perfectamente suaves de la base se convierten en efectos fijos y las partes onduladas de la base son efectos aleatorios, y el parámetro de suavidad está inversamente relacionado con el término de varianza para los efectos aleatorios), que es lo que Hodges está considerando en su libro.
¿Por qué esto resuelve el problema de cuántos nudos usar? Bueno, más o menos lo hace. Esto resuelve el problema de no requerir un nudo en cada punto de datos único (un spline de suavizado), pero todavía tiene que elegir cuántos nudos o funciones de base utilizar. Sin embargo, debido a que la penalización reduce los coeficientes, se puede elegir una dimensión de base tan grande como se considere necesaria para contener la función real o una aproximación a la misma, y entonces se deja que la penalización controle el grado de ondulación de la spline estimada, eliminando o controlando por medio de la penalización la posible ondulación adicional disponible en la base.
Comparación
Los splines penalizados (de regresión) y el RCS son conceptos bastante diferentes. Nada impide crear una base RCS y una penalización asociada en forma cuadrática y luego estimar los coeficientes del spline utilizando las ideas del modelo de splines de regresión penalizados.
El RCS es sólo un tipo de base que se puede utilizar para crear una base de splines, y los splines de regresión penalizados son una forma de estimar un modelo que contiene uno o más splines con penalizaciones de ondulación asociadas.
¿Podemos evitar los problemas 1., 2. y 3.?
Sí, hasta cierto punto, con una base de placas finas (TPS). Una base TPS tiene tantas funciones de base como valores de datos únicos en $X$ . Lo que Wood (2003) demostró es que se puede crear una placa fina Regresión La base Spline (TPRS) utiliza una eigendecomposición de las funciones base TPS, y retiene sólo la primera $k$ dicen los más grandes. Todavía tiene que especificar $k$ El número de funciones de base que se desea utilizar, pero la elección se basa generalmente en el grado de oscilación que se espera que tenga la función ajustada y en la cantidad de trabajo computacional que se está dispuesto a realizar. Tampoco es necesario especificar las ubicaciones de los nudos, y la penalización reduce los coeficientes, por lo que se evita el problema de la selección de modelos, ya que sólo se tiene un modelo penalizado y no muchos no penalizados con diferentes números de nudos.
P-splines
Para complicar las cosas, existe un tipo de base spline conocida como P-spline (Eilers & Marx, 1996)), donde el $P$ a menudo se interpreta como "penalizado". Las P-splines son una base B-spline con un pena de diferencia aplicado directamente a los coeficientes del modelo. En su uso típico, la penalización P-spline penaliza las diferencias al cuadrado entre los coeficientes adyacentes del modelo, lo que a su vez penaliza la ondulación. Las P-splines son muy fáciles de configurar y dan lugar a una matriz de penalización escasa, lo que las hace muy adecuadas para la estimación de términos spline en modelos bayesianos basados en MCMC (Wood, 2017).
Referencias
Eilers, P. H. C., y B. D. Marx. 1996. Flexible Smoothing with -splines and Penalties. Stat. Sci.
Wood, S. N. 2003. Thin plate regression splines. J. R. Stat. Soc. Series B Stat. Methodol. 65: 95-114. doi:10.1111/1467-9868.00374
Wood, S. N. 2017. Modelos aditivos generalizados: An Introduction with R, Second Edition, CRC Press.