El título puede ser completamente inapropiado para esta pregunta: eso depende de si estoy en el camino correcto. Estoy desarrollando un modelo estadístico para evaluar la temperatura de las flores basado en la temperatura del aire. No soy muy bueno en estadísticas, pero soy decente en programación en Python, así que estaba pensando en construir una regresión lineal allí.
Sin embargo, tengo dificultades para descubrir cómo construir mi regresión y si incluso una regresión lineal es una buena elección en absoluto.
El siguiente gráfico muestra cómo varían los datos de temperatura y flores con el tiempo (Día del mes hora).
La línea negra = Temperatura del aire.
Las líneas de colores = varias flores cuyas temperaturas fueron medidas.
Tal vez importante, pero no puedo entender cómo usarlas: las flechas en la parte superior muestran el viento y la dirección, mientras que la línea azul muestra la radiación solar incidente.
El eje y muestra la temperatura (en grados Celsius) mientras que el eje x muestra el tiempo.
Si tuviera que calcular una regresión lineal, tendría que ser válida para cualquier hora del día, por lo tanto, no puedo simplemente evaluar cómo varía la temperatura de la flor con la temperatura del aire, porque una temperatura del aire de 20 grados a la 1 pm no dará la misma temperatura de la flor que una temperatura del aire de 20 grados a la 1 am. Intenté separar la noche y el día (el día varía entre las 6 am-7 pm), pero incluso así, los resultados fueron demasiado caóticos.
Después de leer este post: ¿Es la hora del día (predictor en la regresión) una variable categórica o una variable continua?, pensé que tal vez usar un enfoque categórico funcionaría, pero lo que entiendo de esto es que tendría 24 ecuaciones diferentes para cada hora del día, lo cual parece un poco excesivo. Supongo que estoy preparado para intentar ese enfoque, pero esperaba obtener algún consejo antes de continuar.
¿Quizás debería simplemente usar la radiación solar en lugar del tiempo? ¡Pero aún así, la forma es periódica y no tengo idea de cómo integrar un componente periódico dentro de una regresión lineal!
2 votos
Publicación bien redactada. La solución no se encontrará en algún truco dentro de la regresión lineal, sino en una familia completamente diferente de modelos. Deberás familiarizarte con los modelos de series temporales, estacionalidad, autocorrelación y correlación cruzada. Algunos autores para investigar: Rob Hyndman y Mark Pickup. ¡Buena suerte!
0 votos
¿Cuántos datos tienes? Si tienes muchos, digamos varias cientos de observaciones, tienes más opciones disponibles que si estás más limitado.
0 votos
@jbowman, lo que estoy mostrando ahora mismo es una matriz de 2200x5 y abarca 6 días (el período de floración dura aproximadamente 2 semanas). También tengo alrededor de 200-300 observaciones que se extienden a lo largo de 3 años, pero tenía la intención de usarlas como una forma de verificar la regresión.
0 votos
Si escalas los períodos individuales de 24 horas desde la temperatura mínima = 0.0 y la temperatura máxima = 1.0 y luego los trazas juntos, eso debería ser fácil de hacer y podría ser instructivo en tu estudio.
1 votos
También puedes pensar en el momento del día como un predictor circular. Ver también esta publicación.