19 votos

Si repito cada observación de la muestra en un modelo de regresión lineal y vuelvo a ejecutar la regresión, ¿cómo se vería afectado el resultado?

Digamos que tengo N observaciones, posiblemente múltiples factores y repito cada observación dos veces (o M veces) ¿cómo se compararía una regresión sobre este nuevo conjunto de NM de tamaño con una regresión sobre sólo las observaciones originales?

16voto

pmgjones Puntos 2372

Conceptualmente, no estás añadiendo información "nueva", sino que "conoces" esa información con mayor precisión.

Por lo tanto, se obtendrían los mismos coeficientes de regresión, con errores estándar más pequeños.

Por ejemplo, en Stata, la función ampliar x duplica cada observación x veces.

sysuse auto, clear
regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515    .001586    -2.43   0.018    -.0070138   -.0006891
      length |  -.0795935   .0553577    -1.44   0.155    -.1899736    .0307867
       _cons |   47.88487    6.08787     7.87   0.000       35.746    60.02374
------------------------------------------------------------------------------

expand 5

regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515   .0006976    -5.52   0.000    -.0052232   -.0024797
      length |  -.0795935   .0243486    -3.27   0.001    -.1274738   -.0317131
       _cons |   47.88487   2.677698    17.88   0.000     42.61932    53.15043
------------------------------------------------------------------------------

Como puede ver, coeficientes antes insignificantes (longitud) pasan a ser estadísticamente significativos en el modelo ampliado, lo que representa la precisión con la que "sabe" lo que sabe.

3voto

RoMa Puntos 401

La regresión lineal ordinaria resuelve el problema $$w^* = \mbox{argmin}_w ||Xw - y||^2$$ donde $X$ es la matriz de predictores y $y$ es la respuesta. Si repites cada muestra $M$ veces, dejaría la función objetivo a minimizar sin cambios (excepto por un factor multiplicativo $M$ ). Por lo tanto, el vector de pesos óptimo para el problema más grande sería el mismo que para el problema original más pequeño.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X