2 votos

Beta estandarizada sobre variables estandarizadas

Me cuesta entender por qué la norma beta opción en regress en Stata me da resultados diferentes cuando estandarizo manualmente todas las variables. Digamos x1 x2 x3 x4 x5 y son los datos originales, X1 X2 X3 X4 X5 Y son variables estandarizadas con media 0 y desviación típica 1. Me faltan datos en x4 e y .

sum x1 x2 x3 x4 x5 y

Variable Obs    Mean    Std. Dev.   Min   Max

x1      146 .0584795    .0801943     0      .401
x2      146 .1780685    .1500611    .026    1
x3      146 .8747945    .1389587    .309    1
x4      123 14.24472    2.007943    11.1    22.2
x5      146 .5480685    .3825432    .005    1                           
y       140 2.991429    .8211665    1.3     4.9

sum X1 X2 X3 X4 X5 Y

Variable Obs     Mean   Std. Dev.  Min       Max

X1      146    1.99e-08     1   -.7292224   4.271135
X2      146    2.50e-08     1   -1.013377   5.477312
X3      146   -1.70e-07     1   -4.071673   .9010261
X4      123   -1.22e-07     1   -1.566137   3.961907
X5      146    7.00e-08     1   -1.419626   1.181387                            
Y       140   -4.35e-08     1   -2.059788   2.32422

Pensé que la regresión (2) me daría los mismos resultados que la regresión (3) ya que el manual de Stata dice:

Los coeficientes beta son los coeficientes de regresión obtenidos normalizando primero todas las variables para que tengan una media de 0 y una desviación típica de 1.

reg y x1 x2 x3 (1) reg y x1 x2 x3, beta (2) reg Y X1 X2 X3 (3) reg Y X1 X2 X3, beta (4)

Los resultados son los siguientes:

             (2)          (3)         (4)
x1       -0.1964757   -0.2524519  -0.1964757
x2       -0.1864261   -0.4689916  -0.1864261
x3        0.0219722    0.020811    0.0219722
x4        0.5246134    0.5251326   0.5246134
x5       -0.3346567   -0.3290855  -0.3346567

Y resulta que la regresión (4) da los mismos resultados que (2), pero todas las variables de la regresión 4 ya están normalizadas. Mi conjetura es que como las variables son todas proporciones, no se distribuyen normalmente y varían en rango. Por ejemplo, x1 está entre 0-0,4 mientras que x2 tiene una distribución binomial entre 0-0,99. ¿Sería eso un problema? ¿Debería elegir (2) en lugar de (3) y por qué?

1voto

Rubén R Puntos 6

@whuber abordó muy bien esta cuestión. Resulta que la normalización debe utilizar el mismo conjunto de observaciones que la regresión. Dejando de lado las observaciones con datos que faltan, utilizando "beta" opción y estandarizar manualmente tienen los mismos resultados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X