26 votos

Uso de circular predictores en la regresión lineal

Estoy tratando de ajustar un modelo usando datos del viento (0, 359) y hora del día (0, 23), pero me preocupa que se mal encajan en una regresión lineal porque no son ellos mismos parámetros lineales. Quisiera transformarlos usando Python. He visto alguna mención de calcular una media del vector por medio de que el pecado y lechuga romana de los grados, al menos en el caso del viento, pero no mucho.

¿Hay una biblioteca de Python o método relevante que podría ser útil?

34voto

Nick Cox Puntos 22819

La dirección del viento (aquí se mide en grados, presumiblemente como una brújula en la dirección de las agujas del reloj desde el Norte) es una circular de la variable. La prueba es que el convencional principio de la escala es la misma que la final, es decir,$0^\circ = 360^\circ$. Cuando se trata como un predictor es probablemente el mejor asignada para el seno y el coseno. Sea cual sea su software, es probable esperar que los ángulos se miden en radianes, por lo que la conversión será algún equivalente de

$ \sin(\pi\ \text{direction} / 180), \cos(\pi\ \text{direction} / 180)$

dado que el $2 \pi$ radianes $= 360^\circ$. Del mismo modo hora del día en que se mide en horas de la medianoche puede ser asignada para el seno y el coseno usando

$ \sin(\pi\ \text{time} / 12), \cos(\pi\ \text{time} / 12)$

o

$ \sin(\pi (\text{time} + 0.5) / 12), \cos(\pi (\text{time} + 0.5) / 12)$

dependiendo de exactamente cómo el tiempo se fue grabado o debe ser interpretado.

A veces la naturaleza o de la sociedad es servicial y dependencia en la circular variable toma la forma de una dirección es óptimo para la respuesta y en la dirección opuesta (la mitad del círculo de distancia) se pessimal. En ese caso, un solo seno y coseno plazo puede ser suficiente; para los modelos más complicados se pueden necesitar otros términos. Para más detalles de un tutorial sobre esta técnica de la circular, de Fourier, periódicos, trigonométricas de regresión se puede encontrar aquí, con a su vez otras referencias. La buena noticia es que una vez creado el seno y el coseno de términos que son extra predictores en su regresión.

Hay una gran cantidad de literatura sobre estadística circular, en sí misma considerada como parte de las estadísticas de dirección. Curiosamente, esta técnica es a menudo no se menciona, como el enfoque en el que la literatura es comúnmente circular variables de respuesta. Resumiendo circular variables por su vector de medios es un estándar método descriptivo, pero no es necesaria o directamente útil para la regresión.

Algunos detalles sobre la terminología de la dirección del Viento y hora del día son en términos estadísticos, variables, parámetros, cualquiera que sea el uso en su rama de la ciencia.

La regresión lineal se define por la linealidad en los parámetros, es decir, para un vector $y$ predicho por $X\beta$ es el vector de parámetros $\beta$, no el de la matriz de predictores $X$, lo que es más crucial. Así, en este caso, el hecho de que tales factores como el seno y el coseno se miden en escala circular y también se limita a $[-1, 1]$ no es una barrera para sus apariciones en la regresión lineal.

Incidental comentario De una variable de respuesta, tales como la concentración de partículas que yo esperaría que el uso de un modelo lineal generalizado con logarítmica enlace para asegurarse de predicciones positivas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X