12 votos

Cómo conceptualizar error en un modelo de regresión?

Estoy asistiendo a un análisis de datos de la clase y algunos de mis arraigadas ideas están siendo sacudido. Es decir, la idea de que el error (epsilon), así como cualquier otro tipo de variación, se aplica sólo (eso creía yo) a un grupo (una muestra o conjunto de la población). Ahora, nos enseñan que uno de los supuestos de la regresión es que la varianza es "el mismo para todos los individuos". Esto es de alguna manera impactante para mí. Siempre he pensado que era la varianza en Y a través de todos los valores de X que se supone que es constante.

Tuve una charla con el profe, que me dijo que cuando hacemos una regresión, asumimos nuestro modelo para ser verdad. Y creo que esa es la parte difícil. Para mí, el término de error (epsilon) siempre significaba algo así como "lo que los elementos no conocemos y que pueden afectar nuestra variable de resultado, además de algunos errores de medición". En la forma en que la clase se enseña, no hay tal cosa como "otras cosas"; nuestro modelo se supone que es verdadera y completa. Esto significa que toda la variación residual tiene que ser pensado como un producto de errores de medición (por lo tanto, la medición de un individuo de 20 veces de esperarse que produzca la misma varianza como la medición de 20 individuos de una vez).

Me siento algo mal en algún lugar, me gustaría tener alguna opinión de los expertos en esto... hay un cierto margen para la interpretación de cuál es el término de error es, conceptualmente hablando?

2voto

Brian Borchers Puntos 2546

Si hay aspectos de las personas que tienen un efecto sobre el resultado valores de y, entonces, o hay alguna manera de conseguir en aquellos aspectos (en cuyo caso deberían ser parte de la predictor x), o no hay manera de llegar a esa información.

Si no hay manera de llegar a esta información y no hay ninguna manera de medir repetidamente valores de y para las personas, entonces realmente no importa. Si usted puede medir y repetidamente, y si el conjunto de datos contiene mediciones repetidas para algunos individuos, entonces tienes un problema potencial en sus manos, desde la teoría estadística asume la independencia de los errores de medición/residuos.

Por ejemplo, supongamos que usted está tratando de ajustar un modelo de la forma

$y=\beta_0+\beta_1 x$,

y que para cada individuo,

$yind=100+10x+z$,

donde z depende de la persona y se distribuye normalmente con media 0 y desviación estándar de 10. Para cada medición repetida de un individuo,

$ymeas=100+10x+z+e$,

donde $e$ se distribuye normalmente con media 0 y desviación estándar de 0.1.

Usted podría tratar de modelo como este

$y=\beta_0+\beta_1 x+\epsilon$,

donde $\epsilon$ se distribuye normalmente con media 0 y desviación estándar

$\sigma=\sqrt{10^2+0.1^2}=\sqrt{100.01}$.

Mientras que sólo tienen una medición para cada individuo, que iba a estar bien. Sin embargo, si usted tiene múltiples mediciones para un mismo individuo, entonces los residuos dejará de ser independiente!

Por ejemplo, si usted tiene un individuo con z=15 (1.5 desviaciones estándar, así que no se que razonable), y un centenar de mediciones repetidas de esa persona, entonces el uso de $\beta_0=100$ $\beta_1=10$ (los valores exactos!) terminarías con 100 residuos de alrededor de +1,5 desviaciones estándar, lo cual sería extremadamente raro. Este sería el efecto de la $\chi^2$ estadística.

1voto

patfla Puntos 1

Creo que el "error" es mejor descrito como "la parte de las observaciones que se unpredtictable dado nuestro actual de la información". Tratando de pensar en términos de población vs ejemplo conduce a problemas conceptuales (así lo hace por mí de todos modos), como hace el pensamiento de los errores como "puramente al azar", tomadas de algunos de distribución. pensar en términos de predicción y "previsibilidad" tiene mucho más sentido para mí.

Yo también creo que el principio de máxima entropía proporciona una buena manera de entender por qué una distribución normal se utiliza. Para cuando la modelización estamos asignar una distribución de los errores para describir lo que se conoce acerca de ellos. Cualquier distribución conjunta $p(e_{1},\dots,e_{n})$ podría representar un concebible estado de los conocimientos. Sin embargo, si se especifica algún tipo de estructura, tales como $E(\frac{1}{n}\sum_{i=1}^{n}e_{i}^2)=\sigma^2$, a continuación los más uniforme distribución sujeta a esta restricción es la distribución normal con cero de media y varianza constante $\sigma^2$. Esto muestra que la "independencia" y "varianza constante", son en realidad más seguro que asumiendo en caso contrario en virtud de esta limitación - a saber, que el promedio del segundo momento existe y es finito, y esperamos que el tamaño general de los errores para ser $\sigma$.

Entonces, una manera de pensar en esto es, que no necesariamente pensamos que nuestras hipótesis son "correctas", sino "seguro" en el sentido de que no somos la inyección de una gran cantidad de información en el problema (nos están imponiendo sólo una restricción estructural en $n$ dimensiones). así que estamos empezando desde un área segura y se pueda construir a partir de aquí, dependiendo de qué es lo específico de la información que tenemos sobre el caso en particular y del conjunto de datos a la mano.

1voto

radpin Puntos 121

No estoy de acuerdo con el profesor de la formulación de este. Como usted dice, la idea de que la varianza es la misma para cada individuo implica que el término de error representa sólo el error de medición. Esto no es por lo general como el basic modelo de regresión múltiple se construye. También, como usted dice, la varianza se define para un grupo (ya sea un grupo de sujetos individuales o de un grupo de mediciones). No se aplica a nivel individual, a menos que usted tiene de medidas repetidas.

Un modelo debe ser completa en la que el término de error no debe contener influencias de las variables que se correlacionan con los predictores. La suposición es que el término de error es independiente de los predictores. Si alguna variable correlacionada se omite, obtendrá sesgada de los coeficientes (a esto se llama sesgo de variable omitida).

1voto

tfinniga Puntos 3550

Aquí es muy útil el enlace para explicar la regresión lineal simple : http://www.dangoldstein.com/dsn/archives/2006/03/every_wonder_ho.html tal vez puede ayudar a comprender el "error" del concepto.

F. D.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X