13 votos

Un modelo de regresión cuya variable de respuesta es el día del año en la que un evento anual (en general), se produce

En este caso en particular me refiero al día en que un lago se congela. Este hielo "en" la fecha sólo se produce una vez al año, pero a veces no se produce en absoluto (si el invierno es cálido). Así que en un año el lago se puede congelar en el día 20 (20 de enero), y otro año, es posible que no se congele a todos.

El objetivo es averiguar los conductores de hielo en la fecha.

Predictores serían cosas como el otoño/ invierno la temperatura del aire cada año. Año podría ser un predictor a largo plazo, la tendencia lineal.

1) Es el entero "día de año" una respuesta razonable variable (si no, ¿qué es?)?

2) ¿Cómo se debe manejar los años cuando el lago nunca se congeló?

4voto

pedrofigueira Puntos 468

Yo creo que se puede considerar "los días del año" como una variable de respuesta a una regresión multivariante. Con el fin de manejar de años, cuando el lago nunca se congeló yo simplemente considerar que el día de congelación es más grande que un observable límite inferior que corresponde, por ejemplo, el día cuando el contenido de hielo comienza a derretirse (o se derrita completamente, si quieres ser muy conservador). Teóricamente se debe congelar después de que, o se pueden congelar después de eso, pero no sabemos. De esta manera usted podría utilizar los datos recopilados en los diferentes parámetros para entender cómo la congelación día depende de ellos, si era permitido ser posterior a la última observable fecha. Usted puede utilizar un modelo Tobit para manejar simultáneamente días con heladas (correspondiente a la "normalidad" tipos de datos) y los límites inferiores (correspondiente a los límites y por lo tanto una de regresión censurada).

Para la correcta incluir la medición de los límites inferiores en el análisis, se puede utilizar un modelo de regresión censurada en los que la variable dependiente tiene un corte en el valor del límite inferior. El mencionado modelo Tobit es adecuada para este caso; se asume la existencia de un inobservable (latente) de la variable dependiente $y_i^*$, que en nuestro caso corresponde a la fecha de congelamiento si el invierno se prolonga indefinidamente. De la observación de la variable dependiente $y_i$ (es decir, la medida del límite inferior en la congelación de la fecha) es llevado a ser igual a la variable latente en la ausencia de un límite inferior $L_i$, e igual al límite inferior de lo contrario

\begin{eqnarray} y_i = \left\{ \begin{array}{ll} y_i^* & \quad \mathrm{if} \quad \bar{\exists}\,L_i \:\: (\textrm{i.e.} \, y_i^* < L_i) \\ L_i & \quad \mathrm{if} \quad y_i^*\geq L_i \end{array} \right. \end{eqnarray}

La aplicación del modelo Tobit para manejar la observación-por-observación de la censura, los resultados en función de verosimilitud logarítmica de la forma

\begin{eqnarray} \mathcal{L} = \sum_{i \,\in\, y_i^* < L_i} ln \left[ \phi\left(\frac{y_i-X_{ij}\beta_j}{\sigma}\right)/\sigma \right] \,+\, \sum_{i \,\in\, y_i^*\geq L_i}ln \left[ \Phi\left(\frac{L_i-X_{ij}\beta_j}{\sigma}\right) \right] \, \, \end{eqnarray}

donde $\phi(.)$ $\Phi(.)$ denotar la probabilidad y la acumulada de las funciones de densidad, respectivamente, de la distribución normal estándar. El índice de $i$ se ejecuta en las observaciones y $j$ en las variables independientes. La solución a la regresión lineal es el conjunto de parámetros de $\beta_j$(incluyendo el intercepto) que maximiza la función de verosimilitud logarítmica.

1voto

SpaceghostAli Puntos 3732

El día de año es una sensata de la variable predictora, y por que creo que es sensato tratar como @pedrofigueira sugiere.

Para otras variables de predicción, puede que tenga que ser cuidadoso acerca de cómo representar el tiempo. Por ejemplo, imagine que usted tiene temperaturas del aire por día, ¿cómo le modelo de la temperatura del aire como un predictor de hielo en día? No creo que comparando el mismo día de año muestras es suficiente.

En cualquier análisis, creo que ayuda a escribir lo que ustedes creen que es verosímil la generación de un modelo (o modelos) de los datos podría ser, (donde algunos de física puede estar disponible como una guía). Por ejemplo, una razonable modelo podría integrar el número de días por debajo de la congelación, y cuando eso integral pasa un umbral (por ejemplo, relacionadas con la masa térmica del lago), el hielo se produce. A partir de este modelo se puede entonces preguntar ¿qué es una aproximación razonable y qué no lo es.

Por ejemplo, el día de año como predictor de los asuntos a que el modelo sólo en tanto como el día de año es un buen predictor de la temperatura. En consecuencia, sabiendo que sólo el día del año, uno sólo tiene un día promedio del año correspondiente a la pista de hielo en el umbral, tal vez con cierta distribución normal alrededor de él resulten de interanuales de las variaciones de temperatura, y busca, por tanto, una tendencia en el día de año es completamente justificado.

Pero si usted sabe de otras variables como el aire temp por día, usted probablemente se enfrentará a tratar con un poco más complicado modelo más directamente. Si sólo utiliza los valores anuales (mínimos? significa?) de variable como un predictor de hielo en día también parece razonable (por el mismo argumento anterior).

0voto

Christian Hagelid Puntos 121

Para este problema se necesitan dos variables de respuesta. Un Booleano respuesta que indica si el lago se congeló o no, y uno entero respuesta dando el día del año, con la condición de que el indicador de ser cierto. En los años cuando el lago se congeló, tanto el Booleano, entero, se observó. En los años cuando el lago no congelar, el Booleano es observado y el número entero que no es. Puede utilizar una regresión logística para la Booleano. La regresión para el día de año podría ser un ordinario de regresión lineal.

La circular de la naturaleza de los días del año no debería ser un problema siempre que el número de la posible congelación-más días consecutivos dentro de un período de tiempo determinado. Si usted se está preguntando por dónde empezar la numeración, yo sugeriría que el día cuando los predictores fueron medidos. Si desea que el modelo para representar los efectos causales, debe ser el caso de que todos los predictores fueron medidos antes de cualquier posible congelación.

Para manejar la parte entera y la limitada naturaleza de los días del año, podría utilizar una discretización del modelo. Es decir, no hay un verdadero valor latente que genera una observación de la siguiente manera: si el valor está dentro de los límites, la observación es igual al valor latente redondea al entero más cercano, de lo contrario, el valor se trunca a los límites. El valor latente en sí mismo puede entonces ser modelado como una función lineal de los predictores más ruido.

0voto

kjetil b halvorsen Puntos 7012

Lo que tenemos es el tiempo-a-datos del evento, que es también llamado análisis de supervivencia. Que realmente no es mi área, por lo que no estoy dando una respuesta detallada aquí. Buscando en google por "tiempo para los datos de eventos" o "análisis de supervivencia" le dará una gran cantidad de hits!

Un buen punto de partida podría ser el capítulo (13) sobre el análisis de supervivencia en Venables/Ripley: MASA, o el clásico "El Análisis Estadístico de la Insuficiencia de Datos en Tiempo, Segunda Edición" por Juan D. Kalbfleisch, Ross L. Prentice(auth.)

EDICIÓN, AMPLIADA RESPUESTA

Como una alternativa para el análisis de supervivencia, se puede aproximar que por ordinal de regresión logística. Por ejemplo, en el caso de ejemplo de la primera fecha de congelamiento, definir algunas fechas para las que le dan la "han sido congelar en o antes de" estado 0 (sin congelación), 1 (punto de congelación). Que bien se adapta a los años sin congelar, usted simplemente tiene una respuesta cero vector. Si su elegido las fechas son, digamos,

1:08   15:08 1:09 15:09 1:10 15:10 1:11 15:11 1:12  15:12  1:01  15:01
and the actual date of first freezing was  17:11, then your observed vector will be
0       0    0    0     0    0     0    0      1     1     1      1

y, en general, todos los vectores de respuesta tendrá un bloque inicial de ceros, seguido por un bloque de. A continuación, puede utilizar esta con el ordinal de regresión logística, la obtención de un estima la probabilidad de congelamiento para cada fecha. Trazando la curva se dará una aproximación de una curva de supervivencia (supervivencia, en este contexto, se convierte en "no tener congelado sin embargo").

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X