24 votos

¿Cómo interpretar los coeficientes de regresión cuando la respuesta fue transformada por la raíz 4ª?

Estoy usando la cuarta raíz ( 1/4 ) en mi variable de respuesta, como resultado de la heteroscedasticidad. Pero ahora no estoy seguro de cómo interpretar mis coeficientes de regresión.

Supongo que tendría que llevar los coeficientes a la cuarta potencia cuando realice la retrotransformación (véase el resultado de la regresión más abajo). Todas las variables están en unidades de dólares en millones, pero me gustaría saber el cambio en dólares en miles de millones.

Manteniendo constante la otra variable independiente, un cambio de mil millones de dólares en las tasas, por término medio, conduce a un cambio de 32 (o 32.000 dólares) en recaudación. Tomo 0.000075223 * 1000 (para llegar a los miles de millones) ^ 4 = 0.000032 . Ahora, ¿debo multiplicar este número por 1 millón o por 1.000 millones (la unidad original de la variable dependiente está en millones)?

lm(formula = (Collections^(1/4)) ~ Fees + DIR)

                 Estimate      Std. Error  t value            Pr(>|t|)
(Intercept)   2.094573355     0.112292375   18.653  0.0000000000000151
Fees        **0.000075223   **0.000008411    8.943  0.0000000131878713
DIR           0.000022279     0.000004107    5.425  0.0000221138881913

4 votos

29voto

jldugger Puntos 7490

La mejor solución es, de entrada, elegir una reexpresión que tenga un significado en el campo de estudio.

(Por ejemplo, cuando se hace una regresión de los pesos corporales frente a factores independientes, es probable que una raíz cúbica ( $1/3$ potencia) o raíz cuadrada ( $1/2$ potencia) se indicará. Teniendo en cuenta que el peso es un buen indicador del volumen, la raíz cúbica es un longitud que representa un tamaño lineal característico. Esto lo dota de un significado intuitivo y potencialmente interpretable. Aunque la raíz cuadrada en sí misma no tiene una interpretación tan clara, se acerca a la $2/3$ poder, que tiene unas dimensiones de superficie (puede corresponder a la superficie total de la piel).

La cuarta potencia está lo suficientemente cerca del logaritmo como para considerar el uso del logaritmo en su lugar , cuyos significados se entienden bien. Pero a veces nos encontramos con que una raíz cúbica o cuadrada o alguna potencia fraccionaria de este tipo hace un gran trabajo y no tiene una interpretación obvia. Entonces, debemos hacer un poco de aritmética.

El modelo de regresión que se muestra en la pregunta implica una variable dependiente $Y$ ("Colecciones") y dos variables independientes $X_1$ ("Tasas") y $X_2$ ("DIR"). En él se plantea que

$$Y^{1/4} = \beta_0 + \beta_1 X_1 + \beta_2 X_2 +\varepsilon.$$

El código estima $\beta_0$ como $b_0=2.094573355$ , $\beta_1$ como $b_1=0.000075223$ y $\beta_2$ como $b_2=0.000022279$ . También presume $\varepsilon$ son normales iid con media cero y estima su varianza común (no se muestra). Con estas estimaciones, el valor ajustado de $Y^{1/4}$ es

$$\widehat{Y^{1/4}} = b_0 + b_1 X_1 + b_2 X_2.$$

"Interpretar" los coeficientes de regresión significa normalmente determinar qué cambio en la variable dependiente sugiere un cambio dado en cada variable independiente. Estos cambios son los derivados $dY/dX_i$ que la Regla de la Cadena nos dice que son iguales a $4\beta_iY^3$ . Entonces, introducimos las estimaciones y decimos algo así como

La regresión estima que un cambio unitario en $X_i$ se asociará a un cambio en $Y$ de $4b_i\widehat{Y}^3$ = $4b_i\left(b_0+b_1X_1+b_2X_2\right)^3$ .

La dependencia de la interpretación de $X_1$ y $X_2$ no se expresa simplemente con palabras, a diferencia de las situaciones sin transformación de $Y$ (un cambio de unidad en $X_i$ se asocia a un cambio de $b_i$ en $Y$ ) o con el logaritmo (un cambio porcentual en $X_i$ está asociada a $b_i$ cambio porcentual en $Y$ ). Sin embargo, manteniendo la primera forma de la interpretación, y calculando $4b_1$ = $4\times 0.000075223$ = $0.000301$ podríamos decir algo así como

Un cambio unitario en las tasas está asociado a un cambio en la recaudación de $0.000301$ veces el cubo de las colecciones actuales; por ejemplo, si las colecciones actuales son $10$ entonces un aumento unitario de las tasas está asociado a un aumento de $0.301$ en colecciones y si las colecciones actuales son $20$ entonces el mismo aumento unitario de las tasas está asociado a un aumento de $2.41$ en las colecciones.


Cuando se toman raíces distintas de la cuarta -por ejemplo, cuando se utiliza $Y^p$ como respuesta en lugar de $Y$ mismo, con $p$ no es cero--simplemente reemplaza todas las apariciones de " $4$ " en este análisis por " $1/p$ ".

12voto

Nick Cox Puntos 22819

Una alternativa a la transformación en este caso es utilizar un modelo lineal generalizado con potencia de función de enlace y potencia 1/4. La familia de errores a utilizar es abierta, lo que le da más flexibilidad que la que tiene con la regresión lineal y un supuesto de normalidad condicional. Una de las principales ventajas de este procedimiento es que las predicciones se producen automáticamente en la escala de medición original, por lo que no es necesario realizar una retrotransformación.

4voto

user68005 Puntos 11

He visto trabajos en los que se utilizan los coeficientes de regresión de la raíz cuádrica al pensar en los cambios porcentuales, evitando tomar los logaritmos (y dejando de lado las observaciones).

Si nos interesa utilizar las raíces cuádricas para calcular los cambios porcentuales, lo sabemos:

$\hat{Y} = (\alpha + \hat{\beta}_1 X_1 + \hat{\beta}_2 X_2)^4 \implies \frac{d\hat{Y}}{dX_1} = 4\hat{\beta}_1(\alpha+\hat{\beta}_1 X_1 + \hat{\beta}_2 X_2)^3$

Para el equivalente de una regresión de nivel logarítmico, en la que estamos interesados en el cambio porcentual de $Y$ resultante de un cambio unitario en $X$ Tenemos que conocer los niveles de todos los $X$ variables:

$ \frac{d\hat{Y}/dX_1}{Y} = \frac{4\hat{\beta}_1}{\alpha + \hat{\beta}_1 X_1 + \hat{\beta}_2 X_2} $

Para el equivalente de una regresión log-log, en la que nos interesa el porcentaje en $Y$ resultante de un cambio porcentual en $X$ tendríamos:

$ \frac{d\hat{Y}}{dX_1}\frac{X_1}{\hat{Y}} = \frac{4\hat{\beta}_1 X_1}{\alpha + \hat{\beta}_1 X_1 + \hat{\beta}_2 X_2} $

No parece especialmente conveniente (prefiero la transformación logarítmica), pero se puede hacer, ya sea evaluando el $X$ valores a la media de la muestra o a valores hipotéticos.

Supongo que, en realidad, se podría sustituir el denominador por el valor medio muestral de $Y^{1/4}$ y eso sería un poco más conveniente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X