Grados de libertad no son entero en un número de contextos. De hecho, en algunas circunstancias, se puede establecer que los grados de libertad para ajustar los datos de algunos modelos particulares debe ser entre algunos de valor de $k$$k+1$.
Normalmente pensamos en los grados de libertad como el número de parámetros libres, pero hay situaciones en las que los parámetros no son completamente libres y que puede ser difícil de contar. Esto puede suceder cuando el suavizado / regularización, por ejemplo.
El caso de la local de regresión ponderada / kernel y métodos para alisar los splines son sólo una situación, de un total número de parámetros libres no es algo que fácilmente puede contar por la suma de factores, de modo más general, la idea de grados de libertad es necesaria.
En Modelos Aditivos Generalizados en que gam
está parcialmente basada, Hastie y Tibshirani (1990) [1] (y, de hecho, en numerosas otras referencias) para algunos de los modelos en los que podemos escribir $\hat y = Ay$, los grados de libertad que a veces se toma a $\operatorname{tr}(A)$ (también discutir $\operatorname{tr}(AA^T)$ o $\operatorname{tr}(2A-AA^T)$). La primera es consistente con la más usual enfoque donde ambos trabajan (por ejemplo, en la regresión, donde en situaciones normales, $\operatorname{tr}(A)$ será la dimensión de columna de $X$), pero cuando se $A$ es simétrica e idempotente, todos los tres de esas fórmulas son las mismas.
[No tengo esta referencia práctico para comprobar suficiente de los detalles; una alternativa por los mismos autores (además de Friedman) que es fácil de conseguir es la de los Elementos de Estadística de Aprendizaje [2]; véase, por ejemplo, la ecuación 5.16, que define los grados efectivos de libertad de un smoothing spline como $\operatorname{tr}(A)$ (en mi notación)]
Más generalmente aún, Vosotros (1998) [3] se define generalizada grados de libertad como $\sum_i \frac{\partial \hat y_i}{\partial y_i}$, que es la suma de la sensibilidad de los valores ajustados a sus correspondientes observaciones. A su vez, esto es consistente con $\operatorname{tr}(A)$ donde la definición de las obras. El uso de Vosotros definición sólo necesita ser capaz de calcular $\hat y$ y perturbar la gestión de datos por una pequeña cantidad (en fin de calcular las $\frac{\partial \hat y_i}{\partial y_i}$ numéricamente). Esto hace que sea muy ampliamente aplicable.
Para modelos como los equipados por gam
, una de estas medidas generalmente no son enteros.
(Te recomiendo la lectura de esas referencias en el debate sobre esta cuestión, aunque la historia puede llegar bastante más complicado en algunas situaciones. Ver, por ejemplo [4])
[1] Hastie, T. y Tibshirani, R. (1990),
Los Modelos Aditivos Generalizados
London: Chapman and Hall.
[2] Hastie, T., Tibshirani, R. y Friedman, J. (2009),
Los Elementos de Aprendizaje Estadístico: Minería de Datos, Inferencia y Predicción, 2ndEd
Springer-Verlag.
https://statweb.stanford.edu/~tibs/ElemStatLearn/
[3] Vosotros, J. (1998),
"En la Medición y la Corrección de los Efectos de la Minería de Datos y Selección de Modelo"
Revista de la Asociación Americana de Estadística, Vol. 93, Nº 441, pp 120-131
[4] Janson, L., Fithian, W., y Hastie, T. (2013),
"Grados efectivos de Libertad: Una falsa Metáfora"
https://arxiv.org/abs/1312.7851