4 votos

¿La regresión lineal asume la incertidumbre en la medición de las variables?

¿La regresión lineal asume la incertidumbre en la medición de las variables independientes (X), de la variable dependiente (y), o de ambas?

0 votos

En general, la incertidumbre no es lo mismo que el error de medición. Creo que te refieres a preguntar qué variables son aleatorias, ¿verdad?

0 votos

De la pregunta quiero preguntar que si el modelo de regresión lineal tiene en cuenta la incertidumbre en los valores (Errores-en-Variables) de Y y X . ¿Es posible estimar coeficientes que tengan en cuenta el error en X y el error en Y. En caso afirmativo, en qué condiciones? En caso negativo, ¿cuál es la razón?

0 votos

Bien, esto es lo que he entendido de mis horas de investigación en la web. La regresión lineal asume la incertidumbre en la medición tanto de la variable dependiente Y como de la variable independiente X. Esto se debe a que al estimar la relación lineal buscamos minimizar el error $\varepsilon$ en la siguiente ecuación mediante el método de la suma residual de cuadrados. $$y=\beta_0+\beta_1 x_1+\cdots+\beta_kx_k+\varepsilon$$ donde $\varepsilon$ contiene medidas de incertidumbre en X e Y. Sin embargo, la correlación entre el valor observado de la variable independiente y el error puede hacerla heteroscedástica y violar el supuesto de lin reg.

4voto

Zachary Blumenfeld Puntos 1543

La incertidumbre es un término bastante amplio, por lo que voy a abordar el caso concreto del error de medición. Mi respuesta procede del libro de texto "Economotric Analysis" de Greene, en su 7ª edición. La 5ª edición, más antigua, está disponible de forma gratuita http://stat.smmu.edu.cn/DOWNLOAD/ebook/econometric.pdf y puedes buscar allí una discusión más detallada sobre el error de medición.

Es cierto que en la regresión lineal existe un término de error residual, $\varepsilon$ cuya naturaleza se supone aleatoria, "incierta" e independiente de los regresores $x_1,x_2,...,x_k$ . El error residual puede surgir por varias razones, principalmente porque no podemos esperar captar perfectamente todas las influencias sobre la variable dependiente , $y$ No importa lo elaborado que sea el modelo. La regresión lineal clásica supone que el término de error está compuesto exclusivamente por estas influencias omitidas no correlacionadas, nada más y nada menos. Estas influencias son más parecidas a las variables omitidas y no incluyen el error de medición.

Por desgracia, en la práctica, el error de medición influye en los residuos. Esto puede sesgar negativamente los resultados de la regresión en distintos grados según el tipo de error de medición. Ciertamente, suponer, como ha hecho usted en sus comentarios, que el término residual contiene un error de medición en $X$ y $y$ y que dicho error de medición está correlacionado con $X$ invalida total y absolutamente cualquier regresión clásica resultante. Se trata de un problema mucho más grave que el de la heteroscedasticidad (que a lo sumo subestima sus errores estándar y crea cierta ineficiencia), sino que es una violación de la independencia condicional de la media (también llamada exogeneidad), que da lugar a estimaciones sesgadas de todos los $\beta$ coeficientes (sesgos potencialmente muy grandes y engañosos). En otras palabras, este error de medición da lugar a una correlación entre $\varepsilon$ y $X$ que la regresión lineal clásica supone que no existe.

Una vez más, el grado en que el error de medición afecta negativamente a la regresión depende del tipo de error de medición y puede ser desde benigno hasta extremadamente grave. Tratar los casos en detalle sería demasiado largo para esta respuesta. En general, el error de medición en $y$ es menos preocupante que el error de medición en $X$ y el error de medición aleatorio en $X$ (a diferencia del error de medición que se correlaciona con $X$ o $y$ ) siempre sesgará el $\beta$ hacia cero (también llamado sesgo de atenuación) lo que lo hace menos preocupante en algunos contextos.

Actualización

Por ejemplo, supongamos que tenemos un conjunto de datos formado por 1 millón de personas y que intentamos encontrar el efecto de la educación y de las variables demográficas (título obtenido, años de estudio, edad, etnia, ingresos de los padres, etc.) sobre los ingresos anuales mediante una regresión OLS. Así, $y$ es el ingreso y $X$ consiste en las variables educativas y demográficas.

Existe un término de error $\varepsilon$ que teóricamente consisten exclusivamente en influencias no correlacionadas y omitidas sobre los ingresos. Por ejemplo, supongamos que la persona 123 y la 203 tienen la misma $X$ pero la persona 123 gana 1,2 veces más que la persona 203, la diferencia de ingresos podría explicarse por diversas razones:

  1. persona 123 conocía al azar a alguien que podía conseguirle un trabajo mejor.
  2. La madre de la persona 203 enfermó y él/ella tuvo que tomarse un tiempo libre para cuidarla, lo que supuso un retraso en su crecimiento profesional.
  3. La persona 123 sentía pasión por las finanzas debido a un profesor que tuvo en la universidad, por lo que siguió una carrera con un potencial de ingresos superior a la media, mientras que la persona 203 no.

Esta lista puede seguir y seguir, no podemos modelar todo y esto es lo que crea $\varepsilon$ . Sin embargo, hay que tener en cuenta que ninguno de los anteriores es un error de medición.

En cuanto al error de medición, un ejemplo puede ser que la gente redondee sus ingresos anuales o no los recuerde con exactitud al rellenar la encuesta. Se trata probablemente de un error de medición aleatorio y aditivo, por lo que no sesgará mucho la regresión.

Un ejemplo más grave de error de medición sería que los individuos más ricos declarasen sistemáticamente unos ingresos inferiores a los de los individuos más pobres, lo que daría lugar a una regresión sesgada.

Un ejemplo de sesgo de atenuación sería que los individuos declararan erróneamente los ingresos de sus padres (un $X$ variable) de forma aleatoria. Si los ingresos de los padres afectan a los ingresos de los hijos de alguna manera, la regresión resultante sesgaría dicho efecto hacia cero.

Otro ejemplo sería que los que tienen padres más ricos declararan sistemáticamente unos ingresos inferiores a los de sus padres, mientras que otros no lo hicieran. Suponiendo que los ingresos de los padres influyan positivamente en los ingresos de los hijos, esto probablemente sesgaría el efecto de los ingresos de los padres hacia arriba.

0 votos

Entonces, ¿podemos concluir que sí asume la incertidumbre en la medición de X e Y. Aún no soy capaz de entender del todo cómo se contabilizan los errores y de qué tipo son? Probablemente sea necesario leer un poco más el tect u mencionado.

1 votos

He actualizado la pregunta con un ejemplo, así que espero que ayude

0 votos

¡¡Esto es genial!!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X