6 votos

Combinando 2 conjuntos de coeficientes, ponderando uno de los conjuntos.

Tengo dos conjuntos de coeficientes de datos similares tomadas en diferentes momentos. Lo que quiero hacer es combinar los dos conjuntos de coeficientes de dar un mayor peso a la más reciente.

El objetivo es la construcción de un modelo predictivo. Así que decir que tengo Un conjunto de datos a partir de 2009, y el conjunto de datos B a partir de 2010.

Mi coeficientes para Una son:

param1: 0.33
param2: 1.224
param3: -0.119

Mi coeficientes de B son:

param1: 0.42
param2: 1.309
param3: -0.011

Si yo quería, B a ser considerado el doble de importante, sería lógico utilizar una fórmula como esta:

(2*B + A) / 3 = New Coeeficient

Y hacer eso para cada parámetro? O soy yo, lo que sugiere algo que es fundamentalmente errónea?

En general se podría combinar los coeficientes de eficacia con el forumula:

(Weight * DatasetACoeffcient + DatasetBCoeffient) / (Weight + 1)

Editar Esta es una de regresión lineal multivariado problema donde los conjuntos de datos pueden no estar disponibles cuando alguien decide algo como esto necesita ser hecho.

7voto

jldugger Puntos 7490

Usted está reteniendo $p$ (=3 en este caso) los valores para cada una de regresión: la estimación de los coeficientes. Si usted está dispuesto a conservar $p(p+1)$ (=12) valores por regresión, puede de peso los resultados en una forma que es equivalente a tener todos los datos y la realización de mínimos cuadrados ponderados de regresión con ellos en masa.

El análisis es simple: vamos a $X_1$ ser el diseño de la matriz (es decir, un $n_1$ $p$ matriz de valores de la variable independiente) para el primer año y $y_1$ $n_1$- vector de valores dependientes de ese año. Los coeficientes estimados son

$$\hat{\beta}_1 = \left( X_1' X_1 \right)^{-1} X_1' y_1.$$

Deje que el subíndice $2$ designar las mismas cantidades para el segundo año. Supongamos que deseamos de manera uniforme el peso de todas las observaciones con (positivo) de los valores de $w_1^2$ $w_2^2$ en esos dos años. El diseño de la matriz de $X$ es la vertical de la concatenación de $X_1$$X_2$, $n_1+n_2$ $p$ matriz, y del mismo modo que el vector de valores dependientes de $y$ es la vertical de la concatenación de $y_1$$y_2$. Deje $W$ ser la matriz diagonal con los valores de $w_1$ a lo largo de la primera $n_1$ lugares y $w_2$ a lo largo de los últimos $n_2$ lugares. Los mínimos cuadrados ponderados solución es

$$\hat{\beta} = \left( (W X)' (W X) \right)^{-1} (W X)' W y.$$

Sin embargo, $(W X)' (W X)$ = $X' W'W X$ es la vertical de la concatenación de $X_1 W_1 W_1' X_1$$X_2 W_2 W_2' X_1$. Debido a que tanto $W_1 W_1'$ $W_2 W_2'$ son múltiplos de la identidad de las matrices, que el factor de por medio, dando

$$\hat{\beta} = \left( w_1^2 X_1' X_1 + w_2^2 X_2' X_2 \right)^{-1} \left(w_1 X_1 y_1 + w_2 X_2 y_2\right).$$

Observe que $X_1' X_1$ $X_2' X_2$ sólo $p$ $p$ matrices y que $X_1 y_1$ $X_2 y_2$ sólo $p$-vectores. Por lo tanto, usted puede obtener un $\hat{\beta}$ tan sólo de los dos $p$ $p$ matrices, los dos $p$-vectores, y los dos números de $w_1$$w_2$.

Este enfoque se generaliza de una manera obvia cuando hay más de dos regresiones están involucrados. Se muestra, por cierto, de que la combinación ponderada $w_1^2 \hat{\beta_1} + w_2^2 \hat{\beta_2}$ como se sugiere en la pregunta no será en general de igualdad de los cuadrados mínimos ponderados solución. Por lo tanto, si usted está utilizando mínimos cuadrados para cualquiera de sus propiedades de optimalidad, usted debe no desea utilizar esta seductora solución simple, porque va a ser subóptima.

En conclusión, si usted quiere almacenar los 12 números de $X_i' X_i$ $X_i' y_i$ cada año, a continuación, de forma retrospectiva (sin necesidad de que los datos originales) puede adaptarse a cualquier regresión en todos los datos para cualquier conjunto de resultados positivos de pesos sin ninguna pérdida de información.

Yo recomendaría el ahorro de algunos valores adicionales, tales como el error en la estimación de varianzas: estos le ayudarán a detectar cambios en la variabilidad a lo largo del tiempo (heterocedasticidad).

4voto

patfla Puntos 1

Este es "taylor made" casi para un Bayesiano de regresión. Primero de todo, no hay nada "profundamente equivocado" con lo que usted sugiere. Que el resultado puede no ser óptima por algunos matemáticos estándar, pero es casi seguro que sea óptima tiempo prudente. La mayoría de los otros métodos se involucran mucho más tiempo que la de una recta, la multiplicación y la división.

Yo uso normal de probabilidad $(y_i|\beta,\sigma,x_i,I)\sim N(x_i^T\beta,\sigma^2)$ y el "jeffreys antes" $p(\beta,\sigma|x_i,I) \propto \frac{1}{\sigma}$. Esto le da un posterior para $\beta$ como multivariante distribución t, con la escala de la matriz $s^2(X^TX)^{-1}$ y la media de vectores $\beta_{ols}$ con el estándar $n-p$ grados de libertad. Ahora sólo tiene que utilizar esta posterior basado en el "Un" conjunto de datos como la de antes de la "B" conjunto de datos. Ahora ya tienes una "t" antes y un "normal" de la probabilidad, la parte posterior de la beta será a favor de la normal de probabilidad, debido a la " t " tiene más gordos colas - por lo tanto, menos "potencia de tiro". Esta regresión equilibrio entre la a y la B de la regresión entre la precisión con que se estima, y de lo bien que la B estimación se ajusta a los datos.

Un "add-hoc" de una manera que pudiera agregar más peso a la "B" es por la configuración de los grados de libertad a la 1 de la "a" de la parte posterior. Pero entonces usted puede ahorrar algo de tiempo y hacer el multiplicar la B estimación por dos.

Creo que no es una simple expresión analítica para este posteriores, por lo que probablemente tendrá que simular. Pero solo requieren de la estimación de la "Un" conjunto de datos, y la matriz de covarianza de Un conjunto de datos, y el número de observaciones en el "Un" conjunto de datos. Una vez que usted tiene estas cantidades, no es necesario que el conjunto de datos original.

1voto

Graviton Puntos 28358

Tal vez debería mirar en "apilamiento". O incluso "apilado de características pesadas".

El primero utiliza un método de validación cruzada para determinar los pesos que debe usar para apilarlos linealmente. El último está utilizando "meta-parámetros" para dar aún más información sobre cómo ponderar los parámetros en función de lo que se está pronosticando. Este es un método que desarrolló el equipo # 2 de Netflix. http://arxiv.org/abs/0911.0460

1voto

Monroecheeseman Puntos 825

No hay ninguna razón de contabilidad para el uso de combinaciones lineales convexas de los coeficientes para el "promedio" de dos modelos.

En el mejor de los casos, podría considerar la posibilidad de que los tres coeficientes para cada conjunto de datos son realizaciones de las mismas tres variables aleatorias, y usted estaría interesado en la distribución de cada variable aleatoria.

Lo que yo haría sería entrar en el modelo de nuevo con un nuevo conjunto de datos (de tamaño $n$) que consta de una muestra aleatoria de tamaño $\lambda\times n$ tomado de la B conjunto de datos, y $\left(1-\lambda\right)\times n$ de la de Un conjunto de datos. Usted podría utilizar la $\lambda=\frac{2}{3}$, por ejemplo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X