Me cuesta entender por qué la norma beta
opción en regress
en Stata me da resultados diferentes cuando estandarizo manualmente todas las variables. Digamos x1 x2 x3 x4 x5 y
son los datos originales, X1 X2 X3 X4 X5 Y
son variables estandarizadas con media 0 y desviación típica 1. Me faltan datos en x4 e y .
sum x1 x2 x3 x4 x5 y
Variable Obs Mean Std. Dev. Min Max
x1 146 .0584795 .0801943 0 .401
x2 146 .1780685 .1500611 .026 1
x3 146 .8747945 .1389587 .309 1
x4 123 14.24472 2.007943 11.1 22.2
x5 146 .5480685 .3825432 .005 1
y 140 2.991429 .8211665 1.3 4.9
sum X1 X2 X3 X4 X5 Y
Variable Obs Mean Std. Dev. Min Max
X1 146 1.99e-08 1 -.7292224 4.271135
X2 146 2.50e-08 1 -1.013377 5.477312
X3 146 -1.70e-07 1 -4.071673 .9010261
X4 123 -1.22e-07 1 -1.566137 3.961907
X5 146 7.00e-08 1 -1.419626 1.181387
Y 140 -4.35e-08 1 -2.059788 2.32422
Pensé que la regresión (2) me daría los mismos resultados que la regresión (3) ya que el manual de Stata dice:
Los coeficientes beta son los coeficientes de regresión obtenidos normalizando primero todas las variables para que tengan una media de 0 y una desviación típica de 1.
reg y x1 x2 x3 (1) reg y x1 x2 x3, beta (2) reg Y X1 X2 X3 (3) reg Y X1 X2 X3, beta (4)
Los resultados son los siguientes:
(2) (3) (4) x1 -0.1964757 -0.2524519 -0.1964757 x2 -0.1864261 -0.4689916 -0.1864261 x3 0.0219722 0.020811 0.0219722 x4 0.5246134 0.5251326 0.5246134 x5 -0.3346567 -0.3290855 -0.3346567
Y resulta que la regresión (4) da los mismos resultados que (2), pero todas las variables de la regresión 4 ya están normalizadas. Mi conjetura es que como las variables son todas proporciones, no se distribuyen normalmente y varían en rango. Por ejemplo, x1 está entre 0-0,4 mientras que x2 tiene una distribución binomial entre 0-0,99. ¿Sería eso un problema? ¿Debería elegir (2) en lugar de (3) y por qué?