Una forma de estudiar el problema sería algún tipo de MLG. Por ejemplo, una regresión de Poisson o binomial negativa con un término de intercepción y el $\{0,1\}$ La variable de la edad es un punto de partida obvio. Este modelo no hace ninguna suposición sobre cómo se distribuye la variable indicadora de la edad, por lo que no importa si está muy sesgada a favor de los trabajadores más jóvenes o mayores. La estimación del coeficiente le indicará la dirección y la magnitud de la edad en el número de avales incluso si hay una disparidad en la edad de los trabajadores.
Pero una referencia definitiva para los supuestos de regresión puede encontrarse inf Gleman y Hill, Análisis de datos mediante modelos de regresión y multinivel/jerárquicos En la sección 3.6. Todos los supuestos se enumeran en orden decreciente de importancia. La distribución de las variables independientes no aparece en la lista.
Usted escribe que los datos de respuesta de los investigadores estaban sesgados. Si la expectativa condicional (el producto $X\beta$ del modelo "verdadero") de la respuesta no es normal (lo que implica la asimetría), entonces están violando uno de los supuestos clave de OLS. Un MLG puede ser un modelo más apropiado en ese caso, siempre que la familia y la función de enlace seleccionadas se adapten correctamente al problema estudiado. Dado que el número de apoyos debe ser un número entero positivo no negativo, un modelo normal debe ser equivocado porque un modelo normal admite valores negativos y no enteros como números válidos de avales.
Aquí hay una demostración usando algunos datos falsos generados según el proceso que describes. (El código es para R.) El proceso de generación de datos fija nuestro parámetro de interés $0.15$ y la intercepción en $0.5$ ; este es el vector beta
. A continuación, generamos un indicador binario para la variable edad que es $1$ sólo un 80% de las veces; incluyendo una intercepción, tenemos X
. A continuación, generamos el resultado y
(endosos) condicionados al valor esperado lambda
.
set.seed(1969)
n <- 2000
beta <- c(0.5, .15)
X <- cbind(rep(1, n), rbinom(n, size=1, prob=0.2))
lambda <- exp(X%*%beta)
y <- rpois(n, lambda=lambda)
summary(glm(y~0+X, family="poisson"(link=log)))
> Estimate Std. Error z value Pr(>|z|)
X1 0.49279 0.01954 25.219 < 2e-16 ***
X2 0.17504 0.04079 4.291 1.78e-05 ***
Como podemos ver, el modelo estima el efecto de la edad en aproximadamente $0.17$ que está dentro de un error estándar de su valor real, $0.15$ .
Pero esto no significa necesariamente que el estudio se haya hecho correctamente. En mi ejemplo, conocemos con precisión la forma del proceso de generación de datos, por lo que nos resulta muy fácil recrearlo. Si hay otras características que influyen en los apoyos, entonces el modelo de los autores sufre un sesgo de variables omitidas, y las estimaciones de los coeficientes serán sesgadas e inconsistentes.
Sospecho que esta regresión, o alguna variante relacionada, es la que utilizaron los investigadores. Pero esto no significa necesariamente que el efecto sea tan grande como afirmaron (¡si es que existe!). Tal vez los investigadores seleccionaron el $35$ de edad después de examinar los datos, o cualquier otro tipo de sesgo en el paso de construcción del modelo creó el resultado ("El jardín de los senderos que se bifurcan").
Más sutilmente, es posible que la tendencia no sea binaria en absoluto, sino que varíe de forma continua y no monótona a lo largo de la vida y sea interactiva con otras características del trabajador. Por ejemplo, es posible que, en función de la edad, exista alguna relación compleja como la que se indica a continuación. En este caso, las estimaciones del modelo binario seguirán siendo perfectamente válidas, pero no caracterizarán bien el tipo de variación realmente existente. Un modelo más flexible, como por ejemplo con splines, sería capaz de capturar esto.
0 votos
Deberá proporcionar un enlace al estudio.
0 votos
@user777 No se puede encontrar por desgracia. La pregunta sigue en pie a pesar de todo. Teniendo en cuenta este montaje esas son mis preguntas. Tómalo como un experimento mental