5 votos

Diferencia o proporcionalidad

Un informe afirmaba que las personas mayores no eran apreciadas en las empresas tecnológicas.

Estudiaron una docena de fábricas de una empresa tecnológica en las que los empleados podían (de forma anónima) sugerir mejoras en los procesos en un tablón de anuncios en el pasillo. Otros podían pasar y firmar con su nombre si estaban de acuerdo.

Los investigadores sabían qué empleado sugería qué para poder estudiar el efecto de la edad. Una medida dicotómica que es la unidad si una sugerencia fue escrita por un empleado mayor de 35 años.

Descubrieron que las sugerencias de los empleados de más edad recibieron un 8% menos de apoyos.

Mi preocupación es que también afirman que el 80% de los empleados son menores de 35 años, y una proporción similar (71%) de las mejoras sugeridas son de empleados jóvenes. Entonces, ¿no tienen que demostrar que el número de apoyos es menor de lo que cabría esperar teniendo en cuenta que la mayoría de los empleados son jóvenes? Tengo la impresión de que el resultado está siendo impulsado por la composición de la empresa, la junta en un día cualquiera está dominada por las sugerencias de los empleados jóvenes. Por otro lado, no es que los empleados estén eligiendo a su favorito y entonces podríamos esperar que la proporción fuera importante.

No estoy seguro por lo que me gustaría saber si es importante y si no es así ¿por qué no lo es? Si es así, ¿cómo lo arreglarían? Y, si lo hace ¿hay algún ejemplo de un estudio que lo haga bien?

0 votos

Deberá proporcionar un enlace al estudio.

0 votos

@user777 No se puede encontrar por desgracia. La pregunta sigue en pie a pesar de todo. Teniendo en cuenta este montaje esas son mis preguntas. Tómalo como un experimento mental

2voto

user777 Puntos 10934

Una forma de estudiar el problema sería algún tipo de MLG. Por ejemplo, una regresión de Poisson o binomial negativa con un término de intercepción y el $\{0,1\}$ La variable de la edad es un punto de partida obvio. Este modelo no hace ninguna suposición sobre cómo se distribuye la variable indicadora de la edad, por lo que no importa si está muy sesgada a favor de los trabajadores más jóvenes o mayores. La estimación del coeficiente le indicará la dirección y la magnitud de la edad en el número de avales incluso si hay una disparidad en la edad de los trabajadores.

Pero una referencia definitiva para los supuestos de regresión puede encontrarse inf Gleman y Hill, Análisis de datos mediante modelos de regresión y multinivel/jerárquicos En la sección 3.6. Todos los supuestos se enumeran en orden decreciente de importancia. La distribución de las variables independientes no aparece en la lista.

Usted escribe que los datos de respuesta de los investigadores estaban sesgados. Si la expectativa condicional (el producto $X\beta$ del modelo "verdadero") de la respuesta no es normal (lo que implica la asimetría), entonces están violando uno de los supuestos clave de OLS. Un MLG puede ser un modelo más apropiado en ese caso, siempre que la familia y la función de enlace seleccionadas se adapten correctamente al problema estudiado. Dado que el número de apoyos debe ser un número entero positivo no negativo, un modelo normal debe ser equivocado porque un modelo normal admite valores negativos y no enteros como números válidos de avales.

Aquí hay una demostración usando algunos datos falsos generados según el proceso que describes. (El código es para R.) El proceso de generación de datos fija nuestro parámetro de interés $0.15$ y la intercepción en $0.5$ ; este es el vector beta . A continuación, generamos un indicador binario para la variable edad que es $1$ sólo un 80% de las veces; incluyendo una intercepción, tenemos X . A continuación, generamos el resultado y (endosos) condicionados al valor esperado lambda .

set.seed(1969)
n   <- 2000
beta    <- c(0.5, .15)
X   <- cbind(rep(1, n), rbinom(n, size=1, prob=0.2))
lambda  <- exp(X%*%beta)
y   <- rpois(n, lambda=lambda)
summary(glm(y~0+X, family="poisson"(link=log)))
>    Estimate Std. Error z value Pr(>|z|)    
X1  0.49279    0.01954  25.219  < 2e-16 ***
X2  0.17504    0.04079   4.291 1.78e-05 ***

Como podemos ver, el modelo estima el efecto de la edad en aproximadamente $0.17$ que está dentro de un error estándar de su valor real, $0.15$ .

Pero esto no significa necesariamente que el estudio se haya hecho correctamente. En mi ejemplo, conocemos con precisión la forma del proceso de generación de datos, por lo que nos resulta muy fácil recrearlo. Si hay otras características que influyen en los apoyos, entonces el modelo de los autores sufre un sesgo de variables omitidas, y las estimaciones de los coeficientes serán sesgadas e inconsistentes.

Sospecho que esta regresión, o alguna variante relacionada, es la que utilizaron los investigadores. Pero esto no significa necesariamente que el efecto sea tan grande como afirmaron (¡si es que existe!). Tal vez los investigadores seleccionaron el $35$ de edad después de examinar los datos, o cualquier otro tipo de sesgo en el paso de construcción del modelo creó el resultado ("El jardín de los senderos que se bifurcan").

Más sutilmente, es posible que la tendencia no sea binaria en absoluto, sino que varíe de forma continua y no monótona a lo largo de la vida y sea interactiva con otras características del trabajador. Por ejemplo, es posible que, en función de la edad, exista alguna relación compleja como la que se indica a continuación. En este caso, las estimaciones del modelo binario seguirán siendo perfectamente válidas, pero no caracterizarán bien el tipo de variación realmente existente. Un modelo más flexible, como por ejemplo con splines, sería capaz de capturar esto. enter image description here

0 votos

Esto tiene sentido. Pensé que el sesgo, o la proporción subyacente importaría. Utilizan una regresión normal porque, según recuerdo, el número de avales está muy sesgado. Entonces, ¿tendrían que utilizar un MLG? Es ese el quid de que tengan razón. Además, me olvido de qué, pero controlan alrededor de una docena de variables para que haya menos posibilidades de dejar algo fuera

0 votos

También puede proporcionar una cita para la afirmación sobre el modelo GLM no tener ese supuesto. Si es así, un comentario sobre lo anterior y la cita y voy a aceptar

0 votos

Genial. Una última pregunta. Si se utilizara una variable de edad continua, ¿la suposición es la misma que si fuera binaria? Tu gráfico me hizo pensar en esto

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X