6 votos

Pregunta sobre el término de error en una regresión lineal simple

Supongamos que tenemos un modelo de regresión lineal $Y_{it} = \beta_0 + \beta_1 X_{it} + \epsilon_{it}$, muchas veces en la literatura se supone que $\epsilon_{it} \sim N(0,\sigma^2).$ Esta hipótesis tiene sentido si tenemos un conjunto de datos grande debido al teorema del límite central. Mi pregunta es que en ciertas situaciones me siento el término de error se distribuye normalmente es la suposición equivocada. Supongamos $Y_{it}$ es una variable limitada, tales como la edad de una persona, o un puntaje del examen de un estudiante. Entonces si $\epsilon_{it} \sim N(0,\sigma^2)$ en esta situaciones donde $Y_{it}$ es acotado, no es posible para el término de error para ser tal que las fuerzas de $Y_{it}$ fuera de sus límites? Por ejemplo, supongamos $Y_{it}$ representa una de las personas de edad, si el término de error se distribuye normalmente, luego de un evento aleatorio podría ocurrir, por lo que es posible para una persona para vivir dicen que una de 1000 años?

Por lo tanto, ¿cómo podemos solucionar este problema con el término de error cuando nuestra variable dependiente en el lado izquierdo de la ecuación lineal es acotada. Podríamos elegir otro delimitada distribución del término de error, tales como la distribución uniforme sobre los límites de la $Y_{it}$. Sin embargo, esto no sería realista, puesto que implicaría que todos los eventos en el término de error tienen la misma probabilidad de ocurrir. Me interesa aquí la gente pensamientos acerca de este problema.

Edit: a partir De la lectura de todos los grandes respuestas y comentarios de abajo, aquí es lo que tengo que decir. Sería práctico para imponer un dominio acotado de distribución en $\epsilon_{it}?$, Por ejemplo, el triángulo de la densidad sobre un dominio particular que $Y_{it}$. Sería la imposición de estos tipos de distribución que tienen un dominio acotado y se asemejan a la distribución normal tiene ninguna desventaja?

37voto

Neal Fultz Puntos 171

Dependiendo de la naturaleza de la variable de respuesta, sugiero que lo consultes ya sea el GLM o modelos Tobit. GLM para cuando la respuesta no es normal (por ejemplo, cuentas), y Tobías si pudiera ser normal, salvo que es llegar censurado (por ejemplo negativo de los ingresos denunciado como cero).

5voto

Aksakal Puntos 11351

parece que usted está confundido acerca de la relación del tamaño de la muestra para CLT aplicación. la distribución de $\epsilon_{it}$ no tiene nada que ver con el tamaño de la muestra. Estoy asumiendo que subíndice $i$ se refiere a que el sujeto (la persona), y un subíndice $t$ se refiere a la tume de la observación.

en una regresión lineal simple no hacemos un montón de suposiciones acerca de $\epsilon$ para estimar el $\beta_i$. los errores no tienen que ser normales, y con el aumento de tamaño de la muestra ellos no tienden a ser normal.

CLT se aplica de dos maneras diferentes:

  • cuando el tamaño de la muestra aumenta, entonces la distribución de una estimación de $\beta_i$ cual es a menudo denotado como $\hat{\beta}_i$ tienden a ser normal, es decir, $\hat{\beta}_i\sim\mathcal{N}(0,\sigma_\beta)$ donde $\sigma_\beta$ es una función de $\sigma$. De nuevo, no requerimos $\epsilon_{it}\sim\mathcal{N}(0,\sigma)$, sólo necesitamos $var[\epsilon_{it}]=\sigma$ para este. Este es uno de los grandes propiedades de las muestras de regresiones lineales.
  • muchas veces, cuando nos ocupamos de los experimentos físicos, uno podría argumentar que hay muchas fuentes de errores, cuando todos ellos se suman, hacen $\epsilon_{it}$ - una única observación de ruido distribuida normalmente. esto no está relacionado con el tamaño de la muestra, esto es simplemente fuentes de errores que influyen en una sola observación. en este caso se suele hacer una suposición razonable de $\epsilon_{it}\sim\mathcal{N}(0,\sigma)$

2voto

jschmier Puntos 121

El teorema del límite central no implica que los errores son Normales si usted tiene un gran conjunto de datos. La CT se aplica a las sumas de variables aleatorias (en otros ciertas condiciones).

Como el otro cartel que dice, usted podría mirar a los modelos lineales generalizados que permitir la no-normal distribuciones de error.

Sin embargo, tenga en cuenta que la regresión lineal no requieren de una distribución normal de los errores. Independientemente de la distribución, el estimador de mínimos cuadrados es el Mejor Lineales Insesgados de Estimater (AZUL) por el de Gauss-Markov teorema. Lo único que necesitan para ser correlacionadas y tienen la misma varianza.

La distribución normal se requiere solamente si usted desea reclamar que la estimación de mínimos cuadrados es también el estimador de máxima verosimilitud.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X