Su modelo debe ser reescrito como una ecuación de estimación de la forma Y=Xθ+ϵ donde y1,y2,y3 son simplemente la misma variable observada en diferentes grupos (o clústeres)
Eso implica: yi=θ1D1i+θ2D2i+θ3D3i+ϵi Donde Dki es una variable dummy que =1 si la i-ésima observación corresponde al k-ésimo grupo. Así θ1=β1+β2 θ2=2β1 θ3=β1−β2. Pero estimar las ecuaciones anteriores daría como resultado 3 parámetros θ de los cuales solo existen 2 β por lo que el sistema está sobredeterminado. Sería más razonable escribir θ3 como:
θ3=θ2−θ1 así la ecuación de estimación se convierte en:
yi=θ1(D1i−D3i)+θ2(D2i+D3i)+ϵi≡θ1x1i+θ2x2i+ϵi
que es una regresión lineal estándar con 2 variables explicativas. Una vez que el modelo es estimado (ˆθ), la suma de los residuos al cuadrado es
∑iˆϵ2i=∑iy2i−2∑iyiˆyi+∑ˆy2i
El primer término se obtiene como ∑(Y1i+Y2i+Y3i)2. Desarrollando el segundo término se obtiene :
−2(ˆθ1∑iyix1i+ˆθ2∑yix2i) ≡−2(ˆθ1(∑iY1i−∑Y3i)+ˆθ2(∑Y2i−∑Y3i))
mientras que el tercero es:
$\hat\theta_1^2\sum_ix_{1i}^2 +\hat\theta_2^2\sum_ix_{2i}^2+2\hat\theta_1\hat\theta_2\sum_i{x_{1i}x_{2i}} donde las sumas son sencillas de calcular siguiendo el álgebra del segundo término.
Pero ¿Qué hay de los valores de ˆθ ? Es fácil. Consideremos las observaciones del primer grupo, la ecuación se convierte en, yi=Y1i=θ1+ϵi, la segunda: Y2i=θ2+ϵi y la tercera: Y3i=yi=θ2−θ1+ϵi
Estas 3 ecuaciones son mutuamente excluyentes ya que se basan en muestras diferentes, por lo que estimar la primera y la segunda (por OLS, ML, etc.) implica que los θ estimados son solo promedios de los Yk correspondientes:
ˆθ1=¯Y1, y ˆθ2=¯Y2 y por lo tanto ˆθ3=ˉY2−¯Y1