28 votos

¿Cuál es la diferencia entre análisis de regresión y análisis de varianza?

Estoy aprendiendo en este momento sobre el análisis de regresión y el análisis de varianza.

En el análisis de regresión tienes una variable fija y quieres saber cómo va esa variable con la otra.

En el análisis de varianza quieres saber por ejemplo: si este alimento específico de animales influye en el peso de los animales... Así que una variable fija y la influencia en las otras...

¿Es eso correcto o incorrecto, por favor ayúdame...

38voto

Trevor Boyd Smith Puntos 133

Supongamos que tu conjunto de datos consiste en un conjunto $(x_i,y_i)$ para $i=1,\ldots,n$ y deseas observar la dependencia de $y$ en $x.

Supongamos que encuentras los valores $\hat\alpha$ and $\hat\beta$ de $\alpha$ y $\beta$ que minimizan la suma residual de cuadrados $$ \sum_{i=1}^n (y_i - (\alpha+\beta x_i))^2. $$ Luego tomas $\hat y = \hat\alpha+ \hat\beta x$ para ser el valor predicho de $y$ para cualquier valor de $x$ (no necesariamente observado previamente). Eso es regresión lineal.

Ahora considera la descomposición de la suma total de cuadrados $$ \sum_{i=1}^n (y_i - \bar y)^2 \qquad\text{donde }\bar y = \frac{y_1+\cdots+y_n}{n} $$ con $n-1$ grados de libertad, en partes "explicadas" e "inexplicadas": $$ \underbrace{\sum_{i=1}^n ((\hat\alpha+\hat\beta x_i) - \bar y)^2}_{\text{explicadas}}\ +\ \underbrace{\sum_{i=1}^n (y_i - (\hat\alpha+\hat\beta x_i))^2}_{\text{inexplicadas}}. $$ con $1$ y $n-2$ grados de libertad, respectivamente. Eso es análisis de varianza, y luego se consideran cosas como estadísticas F $$ F = \frac{\sum_{i=1}^n ((\hat\alpha+\hat\beta x_i) - \bar y)^2/1}{\sum_{i=1}^n (y_i - (\hat\alpha+\hat\beta x_i))^2/(n-2)}. $$ Este estadística F prueba la hipótesis nula $\beta=0$.

Frecuentemente uno se encuentra por primera vez con el término "análisis de varianza" cuando el predictor es categórico, de manera que estás ajustando el modelo $$ y = \alpha + \beta_i $$ donde $i$ identifica cuál categoría es el valor del predictor. Si hay $k$ categorías, obtendrías $k-1$ grados de libertad en el numerador en la estadística F, y usualmente $n-k$ grados de libertad en el denominador. Pero la distinción entre regresión y análisis de varianza sigue siendo la misma para este tipo de modelo.

Un par de puntos adicionales:

  • Para algunos matemáticos, la explicación anterior puede hacer que parezca que todo el campo es solamente lo que se ve arriba, así que puede parecer misterioso que tanto la regresión como el análisis de varianza son áreas de investigación activas. Hay mucho que no encajará en una respuesta apropiada para publicar aquí.
  • Existe un error popular y tentador, que es que se llama "lineal" porque el gráfico de $y=\alpha+\beta x$ es una línea. Eso es falso. Una de mis respuestas anteriores explica por qué aún se le llama "regresión lineal" cuando estás ajustando un polinomio mediante mínimos cuadrados.

5 votos

@MichaelHardy Mientras que la descomposición de la varianza en componentes en regresión a menudo se denomina tabla de análisis de varianza. Eso no es lo que comúnmente quieren decir los estadísticos con ANOVA. Los métodos 1) regresión lineal, 2) análisis de varianza y 3) análisis de covarianza son categorías bajo el encabezado general del modelo lineal general, la regresión lineal implica covariables continuas, ANOVA incluye solo grupos discretos y ANCOVA es una combinación de covariables continuas y grupos discretos.

1 votos

De manera informal a veces se habla así, y mi respuesta no dijo eso, pero uno debe saber que (1) la estimación de mínimos cuadrados de los coeficientes se hace en cualquiera de los dos problemas (predictores continuos o categóricos) y una descomposición de la suma de cuadrados con sus correspondientes grados de libertad---una tabla anova---también se hace en cualquiera de los dos problemas.

5 votos

Con esa concesión entonces debes reconocer que no hay nada malo con mi respuesta. Además, los términos ANOVA, ANCOVA y regresión no son términos informales. Son términos muy claramente formales y es incorrecto decirle al OP que ANOVA es la descomposición de la varianza en regresión. El hecho de que un procedimiento estadístico que alguien llamó anova pueda hacer cualquier modelo lineal no prueba nada. En SAS, proc reg trata solo con regresión, proc anova trata solo con el análisis de varianza según lo definí y proc glm es el que hace ambas cosas.

6voto

mat_geek Puntos 1367

La diferencia principal es la variable de respuesta. Mientras que la regresión logística trata con una respuesta binaria en el análisis de regresión lineal y también regresión no lineal, la variable de respuesta es continua. Tienes una variable (s) (también conocida como covariable (s)) que tienen una relación funcional con la variable de respuesta continua. En el análisis de varianza, la respuesta es continua pero pertenece a unas cuantas categorías diferentes (por ejemplo, grupo de tratamiento y grupo de control). En el análisis de varianza, buscas la diferencia en la respuesta promedio entre los grupos. En la regresión lineal, observas cómo cambia la respuesta a medida que cambian las covariables. Otra manera de ver la diferencia es decir que en la regresión, las covariables son continuas mientras que en el análisis de varianza son un conjunto discreto de grupos.

7 votos

Habría tomado la pregunta para significar la diferencia entre regresión lineal y análisis de varianza; introducir la regresión logística parece alejarse del tema. Sin embargo, tu última oración es incorrecta. El análisis de varianza se puede hacer independientemente de si los predictores son discretos o continuos.

0 votos

@MichaelHardy Eso no es lo que dije. Dije que la respuesta está definida en grupos discretos. El análisis de varianza compara grupos en busca de diferencias. No hay predictores en el análisis de varianza. Tal vez estás pensando en análisis de covarianza. El OP usa el término regresión. Podría estar refiriéndose a lineal, no lineal, logístico o de Poisson. No está claro. Aquí tienes una descripción del análisis de varianza de Wikipedia. Análisis de Varianza

1 votos

De hecho, hay predictores en el análisis de varianza. En tu ejemplo, el predictor es categórico, pero no necesariamente tiene que ser así. El análisis de varianza no considera sólo problemas que involucren "grupos discretos".

3voto

Martin Puntos 144

El análisis de varianza (ANOVA) es un conjunto de métodos estadísticos para analizar observaciones que se asumen de la estructura

$y_i=\beta_1x_{i1}+\beta_2x_{i2}+\dots+\beta_px_{ip}+e_i,~i=1(1)n$, que se constituyen de combinaciones lineales de $p$ cantidades desconocidas $\beta_1,\beta_2,\dots,\beta_p$ más errores $e_1,e_2,\dots,e_n$ y los {$x_{ij}$} son coeficientes constantes conocidos con las variables aleatorias {$e_i$} no correlacionadas y con la misma media $0$ y varianza $\sigma^2$ (desconocida).

es decir $E(y^{n \times 1})=X\beta,D(y)=\sigma^2I_n" Donde D es la matriz de dispersión o la matriz de varianza-covarianza.

,donde los coeficientes {$x_{ij}$} son los valores de variables de contador o variables indicadoras que se refieren a la presencia o ausencia de los efectos {$\beta_j$} en las condiciones bajo las cuales se toman las observaciones: {$x_{ij}$} es el número de veces que $\beta_j$ ocurre en la i-ésima observación,y esto suele ser $0$ o $1".En general,en el análisis de varianza todos los factores se tratan cualitativamente.

Si los {$x_{ij}$} son valores tomados en las observaciones no por variables de contador, sino por variables continuas como $t$=tiempo ,$T$=temperatura,$t^2,e^{-T}$,etc, entonces tenemos un caso de **análisis de regresión.En general,en el análisis de regresión todos los factores son cuantitativos y se tratan cuantitativamente.

Principalmente,estos son dos tipos de análisis.

0 votos

¿Qué significa la notación $ i = 1(1) n $?

1 votos

$i=1(1)n$ significa $i=1,2,\dots,n$

-1voto

En el análisis de regresión tienes una variable fija y quieres saber cómo esa variable se comporta en relación a otra variable.

En el análisis de varianza quieres saber, por ejemplo: si este alimento específico para animales influye en el peso de los animales... Entonces una variable fija y la influencia en las otras.

1 votos

Hola Aiza, bienvenida a SE. Necesitas editar esto para dar más contexto y dejar claro cuál es la pregunta en realidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X