En una regresión lineal simple con una variable y transformada logarítmicamente, ¿cómo puedo probar si una duplicación de la variable x conduce a una duplicación de la variable y?
Respuesta
¿Demasiados anuncios?La pregunta es para probar si la pendiente es igual a $1$. Esto puede ser más fácil a cabo mediante una regresión $\log(y) - \log(x)$ contra $\log(x),$, pero también se puede hacer por el post-procesamiento de la regresión resumen (cuando los datos originales pueden no estar disponibles, por ejemplo).
Análisis
El modelo es
$$\mathbb{E}[\log(y)] = \beta_0 + \beta_1\log(x).$$
Doubling $x$ to $x'$ changes $\log(x)$ to $\log(2x) = \log(2) + \log(x)$. Applying that change to the model yields
$$\mathbb{E}[\log(y')] = \beta_0 + \beta_1(\log(x) + \log(2)) = \mathbb{E}[\log(y)] + \beta_1\log(2).$$
You would like to test whether this is reasonably close to a doubling of $\mathbb{E}[\log(y)]$, which would add $\log(2)$ to it. Comparing, it is evident the question comes down to whether $\log(2) = \beta_1\log(2)$; that is, we need to test whether $\beta_1=1$.
The usual output of a linear regression only tests whether the coefficients are zero, not $1.$ Here is sample output from such a regression:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.0817 0.2029 5.331 9.16e-06 ***
x.log 0.4125 0.2636 1.565 0.128
The second line reports that the estimate of $\beta_1$ is $\hat{\beta}_1 = 0.4125$ with a standard error of $0.2636$, a t value of $1.565 = 0.4135/0.2536,$ and a p-value of $0.128$. The relatively large p-value only tells us not to reject the null hypothesis that $\beta_1=0$: it has no direct bearing on whether $\beta_1=1$.
Solution
There are (at least) two ways to fix that.
An easy solution is to regress $\log(y) - \log(x)$ against $\log(x)$. Eso es porque
$$\mathbb{E}[\log(y)-\log(x)] = \beta_0 + \beta_1\log(x) - \log(x) = \beta_0 + (\beta_1-1)\log(x).$$
La nueva pendiente es $\beta_1-1,$, por lo que la comparación que a $0$ es equivalente a la comparación de $\beta_1$$1$. Por ejemplo, aquí está la nueva salida:
Estimate Std. Error t value Pr(>|t|) (Intercept) 1.0817 0.2029 5.331 9.16e-06 *** x.log -0.5875 0.2636 -2.228 0.0335 *
De hecho, $\hat{\beta}_1-1$ = $-0.5875 = 0.4125 - 1$ como era de esperar. El error estándar no cambia, pero esta vez el valor de t es $(\hat{\beta}_1 - 1)/se(\hat{\beta}_1) = -2.228.$ El correspondiente valor de p de $0.0335$ sugiere que puede ser evidencia significativa de que $\beta_1-1\ne 0$; es decir, que $\beta_1 \ne 1.$
Puede el post-proceso de los resultados originales. Volviendo a la primera salida, se puede calcular directamente a $(\hat{\beta}_1 - 1)/se(\hat{\beta}_1) = (0.4125 - 1)/0.2636 = -2.228.$ Esto se convierte en un p-valor de dos caras área bajo la t de Student de la curva con los grados de libertad apropiados ($30$ en este caso, porque no se $32$ valores de datos de menos de dos parámetros estimados). El p-valor es $0.03350966,$ estaba de acuerdo con el resultado anterior.