5 votos

¿Qué información puede obtenerse de la pendiente en la regresión lineal?

Este es el problema:

prob

La pregunta es rara por el hecho de que estamos usando variables categóricas, pero yo lo veo así:

Dado que un año más de estudios tiene un efecto 4 veces mayor sobre los ingresos que pasar de soltero a casado o viceversa, "importa" más ya que el efecto es mayor. Sin embargo, el estado civil es un valor categórico, por lo que no se puede poner un valor de 0,5 o algo así, por lo que la pregunta no me parece correcta.

La misma lógica para la parte b.

La pregunta me parece redactada de forma extraña, así que sólo quiero ver cómo responderíais vosotros a esta pregunta.

1 votos

Ingeniería psicológica totalmente invertida aquí. Mi conjetura es no para un porque las dos variables son de diferente unidad. La educación es continua, así que, digamos, dos meses extra de educación tendrán menos efecto que estar casado. La última afirmación no es consistentemente cierta. Para b, ambas son binarias, así que la diferencia de 1,5 veces es consistente.

0 votos

Además, si recibe las respuestas, ¿tendría la amabilidad de comunicárnoslo? Tengo curiosidad.

4voto

jldugger Puntos 7490

Estoy de acuerdo en que estas preguntas son extrañas (y, posiblemente, poco sólidas para utilizarlas como elementos de examen). Pero quizá puedan responderse si adoptamos algunos supuestos razonables.

Primero, ¿qué significa "importa más"? Hay varias formas de entenderlo, incluso cuando las variables no son conmensurables (¡y difícilmente podemos concebir cómo un cambio de género podría equipararse a un número de años de educación!)

  • Podríamos observar los coeficientes estandarizados, que expresan cuánto varía el ajuste (en un estandarizado escala de ingresos) cuando una variable independiente se modifica en una unidad (en una escala estandarizada).

  • En el caso de las variables explicativas binarias, que se cuantifican de forma natural independientemente de cómo se codifiquen, podríamos comparar los efectos sobre la renta de cambiar sus valores.

(Tenga en cuenta que ni La comprensión de los "asuntos" está pensada en un causal sentido: sólo abordan el grado de asociación estimado con este ajuste lineal, teniendo en cuenta estas variables concretas).

Este último sentido no nos permite sacar ninguna conclusión sobre la pregunta (1), ya que la educación no es binaria, pero implica inmediatamente que el género "importa más" que el estado civil, porque un cambio de género hace $1.5$ veces la diferencia en los ingresos previstos de un cambio de estado civil, ceteris paribus.

El primer sentido de "asuntos" es más problemático, porque no se nos da la información necesaria para estimar los coeficientes estandarizados. Sin embargo, si asumimos que el estudio es una población adulta occidental grande típica, entonces

  • Los años de formación variarán entre menos de 12 y más de 16, probablemente con una desviación estándar de varios años. (Sin embargo, si el estudio se centra en un tipo de trabajo concreto en el que casi todos los trabajadores tienen una formación comparable, la desviación típica de los años de formación podría ser muy inferior a $1$ .)

  • Habrá aproximadamente el mismo número de personas de cada sexo. Por lo tanto, su desviación estándar será bastante cercana a $1/2$ . (En algunos casos -como un estudio de un campo dominado por los hombres- es posible, sin embargo, que esta desviación estándar sea mucho menor).

  • Allí puede ser aproximadamente el mismo número de personas casadas y no casadas o tal vez no. Si no es así, entonces la desviación estándar podría ser un poco menor que $1/2$ --o incluso mucho menos si un estado es relativamente raro en la muestra.

Las he enumerado desde la mayor desviación estándar hasta la menor. Cuanto mayor sea la desviación estándar, mayor será el coeficiente estandarizado (ya que es proporcional a la desviación estándar de la variable explicativa). Bajo estos supuestos, tendríamos una base para concluir que los años de educación son los que más importan (con diferencia) y que el género sigue siendo más importante que el estado civil. Si nos preocupamos por los desequilibrios en el género y el estado civil, entonces ya no podemos concluir nada sobre qué "importa" más, pero sigue siendo cierto que la educación importa más que cualquiera de los dos, siempre que haya una gama suficiente expuesta dentro de los datos.

En consecuencia, hemos desarrollado argumentos razonables por los que la respuesta a (a) es "sí" (la educación importa más que el estado civil), pero que la respuesta a (b) es "sí" o "quizá" (el género importa más que el estado civil). Lo más importante es que también hemos descubierto posibles situaciones en las que estas respuestas podrían ser completamente inversas. Lo que realmente ha conseguido nuestro análisis es caracterizar las situaciones en las que podrían producirse los retrocesos.


En los comentarios, @Buckminster señala que, aunque todos los coeficientes estimados sean significativos, quizá no deberíamos apresurarnos a suponer que uno de los coeficientes reales es mayor que otro. ¿Hasta qué punto es fiable esa suposición?

Cuando una estimación $b$ de un coeficiente $\beta$ es "significativo", eso significa que un dos caras prueba de la hipótesis $\beta=0$ es rechazado. Se nos dice que el nivel de significación es de al menos $99\%$ . Esto implica que el error estándar de $b$ es menor que $b / Z_{1-\alpha/2}$ para $\alpha = 1 - 0.99 = 0.01$ y, normalmente, $Z$ es un cuantil de la distribución normal estándar. En consecuencia, si dos estimaciones $b_0$ y $b_1$ no están correlacionados (o están correlacionados negativamente), el error estándar de su diferencia no puede superar

$$ \sqrt{\left(\frac{b_0}{Z_{1-\alpha/2}}\right)^2 + \left(\frac{b_1}{Z_{1-\alpha/2}}\right)^2}.$$

En el caso $b_1 = 1.5 b_0$ esto da un límite superior de $0.7 b_0$ , lo que implica $b_1-b_0$ es $0.5/0.7 = 0.72$ errores estándar lejos de $0$ . Sólo nos preocupa si $\beta_1 \le \beta_0$ El objetivo de este artículo es: "Esto es un un lado prueba con valor p $1 - \Phi(0.72) = 0.24$ . Aunque eso no es terriblemente bajo, es una prueba de que podemos actuar como si realmente fuera el caso que $\beta_1 \gt \beta_0$ . Pero como las pruebas son débiles, @Buckminster está bien justificado al llamar nuestra atención sobre este asunto.

1voto

Buckminster Puntos 332

Parece que tiene dos preguntas:

1) ¿Qué nos dicen las pendientes de los predictores categóricos (con código ficticio)?

La estimación del parámetro para una variable categórica con código dummy proporciona una estimación de la diferencia entre los grupos, controlando los efectos de las covariables. En el contexto de esta pregunta, la pendiente para el género representaría la diferencia media estimada en los ingresos entre hombres y mujeres tras tener en cuenta la educación y el estado civil.

El hecho de controlar las covariables es importante. Imaginemos que, por la razón que sea, las mujeres tuvieran de media 5 años más de educación que los hombres. Un modelo simple que haga una regresión de los ingresos en función del género podría resultar significativo, pero eso no significaría que el género en sí mismo sea responsable de las diferencias de ingresos. La prueba de significación de la pendiente para el género en el contexto del modelo más complejo nos prueba que el género predice significativamente los ingresos más allá de la educación y el estado civil. Aun así, debemos tener en cuenta que el género (o, de hecho, cualquiera de nuestros predictores) puede ser simplemente redundante con otras variables desconocidas y, por tanto, debemos ser cautos a la hora de sacar conclusiones sobre lo que "importa".

2) ¿Qué conclusiones podemos extraer de la comparación de las pendientes en el contexto de un modelo de regresión múltiple?

No mucho. Las pruebas de significación en cada uno de sus predictores están preguntando si esos valores de cero. Por ejemplo, el hecho de que su pendiente para el género sea significativa sólo significa que en el contexto del siguiente modelo, $\beta_1 \neq 0$ : $$Income_i = \beta_0 + \beta_1 Gender_i + \beta_2 MaritalStatus_i + \beta_3 Education_i +\varepsilon_i$$

Sin embargo, estas pruebas de significación no comprueban si estas pendientes difieren entre sí. Además, dado que el escala de sus diferentes vertientes son diferentes (por ejemplo $\beta_1$ es la diferencia de ingresos prevista entre hombres y mujeres, mientras que $\beta_3$ es el aumento previsto de los ingresos por año adicional de educación), la comparación de las magnitudes de sus estimaciones de la pendiente no es especialmente esclarecedora.

2 votos

Es difícil ver cómo una prueba formal de un coeficiente contra otro sería relevante para cualquiera de estas cuestiones.

0 votos

@whuber Considera la parte b) de la pregunta del OP. Las estimaciones de los parámetros asociados a los predictores codificados como ficticios reflejan las estimaciones de las diferencias medias entre hombres y mujeres y entre adultos solteros y casados. El hecho de que estos predictores sean "significativos" implica simplemente que sus intervalos de confianza no se solapan con cero. No tenemos ninguna razón para creer que los efectos de los dos predictores difieran entre sí. Lo mismo ocurriría si examináramos los coeficientes estandarizados. Por favor, corríjanme si me equivoco.

0 votos

Mi punto no es que nosotros debe comparar formalmente los coeficientes, sólo que no deberíamos hacer inferencias sobre la importancia basándonos en la magnitud relativa de nuestras estimaciones puntuales, especialmente teniendo en cuenta que no tenemos ninguna razón para concluir que los efectos difieren entre sí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X