La respuesta rápida es NO, no deberías usar splines periódicos. De alguna manera estás intentando solucionar un problema secundario (heterocedasticidad) al no solucionar el problema principal, para que las predicciones sean correctas.
Algunos detalles adicionales: Tu primer gráfico muestra una menor varianza en la parte del principio del verano, y una mayor varianza para finales del verano. En este caso, la menor varianza generalmente se asocia con valores más altos. Las transformaciones se utilizan principalmente para el patrón opuesto, por lo que probablemente no sean de mucha utilidad aquí. Además, complicarán el modelado, así que mantente alejado de las transformaciones.
Tu segundo y tercer gráfico (modelo con splines suavizados) es lo que esperarías en este caso: más variabilidad entre los residuos cuando la varianza en los datos es mayor. Esto es solo una parte del fenómeno a modelar, no realmente un problema. La heterocedasticidad no es lo suficientemente fuerte como para justificar mucho, se podría utilizar una estimación ponderada, pero estimarías los pesos a partir de los datos, probablemente sin ganar mucho y presentando otros problemas (¿cómo obtienes errores estándar correctos cuando se estiman los pesos? Podrías intentar el bootstrapping, mi conjetura es que no ganarías nada...)
Los últimos gráficos (modelo con splines suavizados periódicos) confirman esto: Sí, ahora los residuos tienen una varianza aproximadamente constante, pero ¡es en todas partes más alta! Así que no has ganado nada. Tal vez intenta con errores estándar robustos. Si estás utilizando R, aquí hay algunos consejos y código útiles: Cómo calcular el error estándar robusto de la predicción y de un modelo de regresión lineal en R? (que está cerrado por razones incomprensibles, parece ser comprensible y útil)
0 votos
¿Puede decirnos en qué sentido ha mejorado la estructura residual? ¿Y por qué espera que el nivel de humedad durante el verano sea periódico?
0 votos
En el gráfico de residuos vs. valor predictivo lineal del primer ejemplo (arriba a la derecha), la desviación es mucho mayor para valores predictivos bajos que para valores altos. En el segundo ejemplo esto está más disperso. Sí, esta es exactamente la razón por la que no estaba seguro si el spline cíclico es apropiado, porque la humedad del suelo no es generalmente periódica, sino que disminuye durante el verano y aumenta un poco nuevamente al final cuando vuelven las lluvias, pero solo hasta aproximadamente la mitad del nivel que tenía antes del comienzo del verano.
0 votos
Bueno, el ajuste no es mejor en ninguna parte, simplemente es más homocedástico. ¡Eso parece ser una mala razón para introducir un supuesto de modelado (periodicidad) que sabes que no es verdadero! Si la heterocedasticidad es un problema, habrá mejores formas de manejar eso. Tal vez solo usar errores estándar robustos. Especialmente, al mirar tu primer gráfico, es manifiesto que la varianza es menor en el extremo alto (principios de verano), y ver eso reflejado en el ajuste no puede ser malo.
0 votos
Gracias, ¡no sabía que los motores de búsqueda robustos existían!
0 votos
¿Puedes proporcionar algún contexto sobre tu tarea de modelado, por favor? Por ejemplo, ¿de qué se trata el spline periódico? ¿Es semanal? ¿Mensual? ¿A través de todos los datos disponibles? Además, ¿es adecuado el AR(1)? ¿Has graficado los ACF/PACF de los residuos con y sin la inclusión del término AR(1)? ¿Por qué AR(1) y no MA(1), por ejemplo? Y finalmente, ¿cuál es el objetivo final? ¿Predecir nuevos valores? ¿Probar alguna hipótesis? ¿Visualización de tendencias?