2 votos

Efectos marginales medios problemas de interpretación

Estoy aplicando un modelo de regresión probit para comprobar mi hipótesis. Como no se puede deducir la magnitud del efecto de las variables independientes sobre mi dependiente, he calculado los efectos marginales medios de mi regresión. Mi problema es que hay AME en la tabla de salida (he utilizado margins(regression) para calcularlo) que son mayores que 1, por ejemplo, 1,2713. ¿Significa esto que por un aumento en mi variable Y las posibilidades de obtener 1 para mi X aumentan en un 127%? ¿Es posible? ¿O podría haber un problema con la forma en que he operacionalizado la variable Y?

probitdd <- glm(escape ~ avg_polity2 + log(avg_gdp) + avg_durable + log(avg_totmipopula) + avg_accountability + log(avg_libdem), family = binomial(link = "probit"), data = coilp5dd)

================================================
                         Dependent variable:    
                     ---------------------------
                               escape           
------------------------------------------------
avg_polity2                     -0.2            
                                (0.4)           

log(avg_gdp)                    0.9*            
                                (0.5)           

avg_durable                     -0.02           
                               (0.02)           

log(avg_totmipopula)            -0.7*           
                                (0.4)           

avg_accountability              -3.9            
                                (3.3)           

avg_libdem                       4.7            
                                (8.1)           

Constant                         6.9            
                                (5.1)           

m2 <- margins(probitdd)
summary(m2)

AME

1   avg_accountability  -1.0469 

2   avg_durable -0.0059 

3   avg_gdp 0.0014

4   avg_libdem  1.2713  

5   avg_polity2 -0.0537 

6   avg_totmipopula -0.0000

3voto

Neal Puntos 316

Una pista de lo que está ocurriendo es la presencia de log()s alrededor de los nombres de los coeficientes de la función de índice para las variables registradas, pero su ausencia en la tabla de AMEs que aparece a continuación.

En un modelo probit, se tiene algo como $$\mathbf{Pr}[y = 1 \vert \ln(x),z ] = \Phi(\alpha + \beta \cdot \ln(x) +\gamma \cdot z).$$

El efecto marginal de $\ln x$ es $$ME_1 = \frac{\partial \mathbf{Pr}[y = 1 \vert \ln(x),z ]}{\partial \ln x}=\varphi(\alpha + \beta \cdot \ln(x) +\gamma \cdot z) \cdot \beta$$

Esto se limita a estar en [0,1].

El efecto marginal de $x$ cuando lo registre es $$ME_2 = \frac{\partial \mathbf{Pr}[y = 1 \vert \ln(x),z ]}{\partial x}=\varphi(\alpha + \beta \cdot \ln(x) +\gamma \cdot z) \cdot \beta \cdot \frac{1}{x}$$ desde $\frac{d \ln(x)}{dx} = \frac{1}{x}$

Dada la forma en que ha especificado la función de índice, R está calculando la media de la segunda cantidad por usted (aunque la función $ME_1$ también es razonable, más adelante). Es la multiplicación por $\frac{1}{x}$ que está causando el problema de fuera de límites. Yo apostaría que $\ln(avg_libdem)$ tiende a ser inferior a uno.

Puede interpretar $AME_1$ como una semielasticidad ya que $$\frac{\partial \mathbf{Pr}[y = 1 \vert \ln(x),z ]}{\partial x}=\varphi(\alpha + \beta \cdot \ln(x) +\gamma \cdot z) \cdot \beta \cdot \frac{1}{x}$$ puede reordenarse como

$$\frac{\partial \mathbf{Pr}[y = 1 \vert \ln(x),z ]}{100 \cdot\frac{\partial x}{x}}=\frac{1}{100} \cdot \varphi(\alpha + \beta \cdot \ln(x) +\gamma \cdot z) \cdot \beta$$

El numerador es un cambio en la probabilidad. El denominador es un cambio del 1% en x. Obsérvese que sin escalar por $\frac{1}{100}$ , tendrías un $100\%$ cambio en el denominador, y como las derivadas son aproximaciones de un cambio pequeño, se pueden obtener efectos muy grandes cuando se considera una duplicación.

Así pues, 1,2713 puede interpretarse como que el modelo dice que un cambio del 1% en avg_libdem se asocia a un $\frac{1.2713}{100}=.012713$ punto porcentual en la probabilidad de escapar (o 1,27 puntos porcentuales en una escala de [0,100]). Me gusta dividir, ya que los otros ME están en la escala [0,1], para mantener el equilibrio.

Personalmente, también encuentro $ME_1$ más intuitivo, así que engañaría a R registrándome o simplemente no registraría las variables RHS (a menos que hubiera alguna buena razón para hacerlo, como ser coherente con la literatura anterior).

He aquí un código R que muestra este cálculo en otro conjunto de datos:

> library(foreign)
> library(margins)
> auto <- read.dta("https://www.stata-press.com/data/r12/auto.dta")
> auto$log.price <- log(auto$price)
> m1 <- glm(foreign ~ log.price + mpg, data=auto, family = binomial(link="probit"))
> (margins(m1))
Average marginal effects
glm(formula = foreign ~ log.price + mpg, family = binomial(link = "probit"),     data = auto)

 log.price     mpg
    0.4009 0.04127
> (AME_price_m1 <- mean(dnorm(predict(m2, type = c("link")))*m2$coefficients['log.price']*1/auto$price))
[1] 7.310459e-05
> m2 <- glm(foreign ~ log(price) + mpg, data=auto, family = binomial(link="probit"))
> (margins(m2))
Average marginal effects
glm(formula = foreign ~ log(price) + mpg, family = binomial(link = "probit"),     data = auto)

    price     mpg
 7.31e-05 0.04127

Aquí 0,0000731 significa que un aumento de 1 dólar en el precio se asocia con un cambio infinitesimal en la probabilidad de fabricación extranjera, en una escala [0,1].

Y 0,4009 significa que $1\%$ aumento del precio se asocia a un $\frac{0.4009}{100}=0.004$ aumento de la probabilidad de ser extranjero en una escala de [0,1]. O una duplicación del precio se asocia a un aumento de 40 puntos porcentuales en una escala de [0,100].

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X