Lo más importante es la lógica que subyace al modelo. Su variable "número de patentes al año" es una variable de recuento, por lo que se indica una regresión de Poisson. Se trata de un MLG (modelo lineal generalizado) con (normalmente) función de enlace logarítmica, mientras que la regresión lineal habitual es un MLG gaussiano con enlace de identidad. En este caso, lo más importante es la función de enlace logarítmico, más que la distribución del error (Poisson o gaussiana).
La variable "Patentes" es un amplia variable: véase propiedades intensivas y extensivas . Para intensivo variables, como la temperatura, los modelos lineales (con enlace de identidad) suelen ser apropiados. Pero con una variable extensiva es diferente. Piense que una de sus empresas farmacéuticas se divide en dos empresas diferentes. Entonces hubo que repartir las patentes entre las dos nuevas empresas. ¿Qué ocurre con las covariables, las $x$ en tu regresión? También habría que dividir variables como el número de empleados y el presupuesto de I+D.
En términos generales, en este contexto, un intensivo es una variable independiente del tamaño de la empresa, mientras que una variable amplia depende (normalmente, de forma lineal) del tamaño de la empresa. Así que, en cierto sentido, si tenemos muchas variables extensivas diferentes en la ecuación de regresión, estamos midiendo efectos de tamaño repetidamente . Esto parece redundante, por lo que deberíamos intentar, siempre que sea posible, expresar las variables en forma intensiva como el presupuesto de RD por empleado (o como porcentaje del presupuesto total), así como los ingresos, etc. Una variable como el número de empleados tendrá que dejarse como extensa. Véase la respuesta de @onestop a Regresores correlacionados para otro debate sobre esta cuestión de las variables extensivas/intensivas.
Veámoslo algebraicamente: $P, B, E$ son Patentes, Presupuesto (por empleado), Empleados en la empresa original, mientras que $P_1, B_1, E_1$ y $P_2, B_2, E_2$ son las variables correspondientes después de una división. Supongamos, como en el caso anterior, que $E$ es la única covariable extensiva (con $P$ por supuesto, también extensa).
Entonces, antes de la división, tenemos el modelo, vínculo de identidad, con la parte aleatoria omitida: $$ P= \mu+\beta_1 E + \beta_2 B $$ Sean las fracciones divididas $\alpha, 1-\alpha$ por lo que para la empresa 1 después de la división obtenemos \begin{align} \alpha P &= \alpha \mu +\alpha\beta_1 E +\alpha\beta_2 B \\[5pt] P_1 &= \alpha\mu + \beta_1 E_1 + \alpha\beta_2 B_1 \end{align} desde $P_1=\alpha P, E_1=\alpha E$ pero $B_1=B$ . Lo mismo ocurre con la empresa dos. Así pues, el modelo depende de forma bastante complicada del tamaño de la empresa, sólo el coeficiente de regresión sobre $E$ siendo independiente del tamaño de la empresa, tamaño que influye en todos los demás parámetros. Eso dificulta la interpretación de los resultados, sobre todo si en los datos hay empresas de distinto tamaño, ¿cómo se van a interpretar esos coeficientes? La comparación con otros estudios basados en otros datos, etc., se complica enormemente.
Ahora, veamos si el uso de una función de enlace de registro puede ayudar. Una vez más, escribimos modelos idealizados sin términos de perturbación. Las variables son las anteriores.
En primer lugar, el modelo anterior a la escisión: $$ P = \exp\left(\mu+\beta_1 E + \beta_2 B\right) $$ Después de la división, para la empresa uno, obtenemos: \begin{align} P_1 &= \exp(\log\alpha) \exp\left(\mu+\beta_1 E + \beta_2 B\right) \\[5pt] P_1 &= \exp\left(\log\alpha+\mu+\beta_1 E +\beta_2 B_1 \right) \end{align} Esto parece casi correcto, excepto por un problema, la parte de la dependencia de $E$ no acaba de funcionar. Así, vemos que el número de empleados, la única covariable en forma extensiva, debe utilizarse en escala logarítmica. Entonces, intentando de nuevo, obtenemos:
Modelo antes de la división: $$ P = \exp\left(\mu+\beta_1 \log E + \beta_2 B\right) $$ Después de la separación: \begin{align} P_1 &= \exp(\log\alpha) \exp\left(\hspace{9.5mm}\mu+\beta_1 \log E + \beta_2 B\right) \\[5pt] P_1 &= \exp\left(\log\alpha+\hspace{6mm}\hspace{9.5mm}\mu+\beta_1 \log E +\beta_2 B_1 \right) \\[5pt] P_1 &= \exp\left((1-\beta)\log\alpha+\mu+\beta_1 \log E_1 +\beta_2 B_1\right) \\[5pt] P_1 &= \exp\left(\hspace{31mm}\mu'+\beta_1 \log E_1 +\beta_2 B_1\right) \end{align} donde $\mu'$ es una nueva interceptación. Ahora, hemos puesto el modelo en una forma en la que todos los parámetros (excepto el intercepto) tienen una interpretación independiente del tamaño de la empresa.
Eso facilita mucho la interpretación de los resultados, así como las comparaciones con estudios que utilizan otros datos, las tendencias en el tiempo, etc. No se puede conseguir esta forma con parámetros con interpretaciones independientes del tamaño con un enlace de identidad.
Conclusión: Utilice un GLM con función de enlace logarítmico, tal vez una regresión de Poisson, o binomial negativa, o ... La función de enlace es mucho más importante.
En resumen, cuando se construye un modelo de regresión para una variable de respuesta que es amplia como una variable de recuento.
-
Intente expresar las covariables en forma intensiva.
-
Covariables que deben dejarse como extensivas: logarítmicas (el álgebra anterior depende de que haya como máximo una covariable extensiva).
-
Utilizar una función de enlace de registro.
A continuación, pueden utilizarse otros criterios, como los basados en el ajuste, para decisiones secundarias, como la distribución del término de perturbación.