Utilizaré la notación de Andrew Ng (que es un poco inusual). En la sección Interpretación probabilística hace varias suposiciones:
- $y^{(i)} = \theta^T x^{(i)} + \epsilon^{(i)}$ (existe una relación lineal entre $y^{(i)}$ y $x^{(i)}$ ),
- En $\epsilon^{(i)}$ son ruidos aleatorios que se modelan como variables aleatorias gaussianas independientes idénticamente distribuidas (iid) con media cero y cierta desviación típica $\sigma$ .
Podrías modelar $\epsilon^{(i)}$ tiene tener una media más general pero es innecesario porque asume un término de sesgo $\theta_0$ y $x_0=1$ Eso es, $$ y^{(i)} = \theta_0\cdot 1 + \theta_1 x_1^{(i)} + \ldots + \theta_n x_n^{(i)} + \epsilon^{(i)} $$ y el problema de regresión se entiende generalmente como la estimación de $\theta$ para llegar al valor medio de $y$ para un valor determinado de $x$ . Recuerde que para un valor fijo de $x$ puede haber varios valores de $y$ (ruidoso $y$ ) y tener una función entre $x$ y $y$ debe elegir un valor (representativo) de $y$ . Tradicionalmente esta elección ha sido la media de $y$ .
Esta presentación de la regresión lineal supone una relación lineal entre $x$ y $y$ donde la variación observada en $y$ procede del término de ruido $\epsilon$ . Desde el $\epsilon^{(i)}$ se supone que los términos son iid todos tienen la misma media (son independientes y tienen la misma distribución, lo que significa que tienen la misma media). Si la media de los $\epsilon^{(i)}=\mu$ entonces podrías transferir la media de los términos de ruido al término de sesgo $\theta_0$ y terminan con las mismas respuestas para el $y^{(i)}$ valores. Así que, por simplicidad (o convención), la mayoría de la gente asume que el término de ruido tiene una media de cero.
Declaraciones sobre $y$ suelen estar condicionadas a $x$ . Así, por ejemplo, la media de $y^{(i)}$ condicionado a $x^{(i)}$ es $$ \mathbb{E}\left [y^{(i)}\mid x^{(i)}; \theta\right ]= \mathbb{E}\left [\theta^{T} x^{(i)} + \epsilon^{(i)} \mid x^{(i)}; \theta\right ] = \theta^{T} x^{(i)} + \mathbb{E}[\epsilon^{(i)} \mid x^{(i)}; \theta] = \theta^{T}x^{(i)} $$ desde $\theta^{T} x^{(i)}$ es constante dado $x^{(i)}$ y $\epsilon^{(i)}$ tiene una media de cero. Análogamente, $y^{(i)}$ no tiene necesariamente una distribución normal en este tipo de modelo de regresión lineal, pero los supuestos anteriores implican que la distribución condicional de $y^{(i)}$ dado $x^{(i)}$ se distribuye normalmente con media $\theta^{T}x^{(i)}$ y desviación típica $\sigma$ .