2 votos

Interpretación probabilística de la regresión lineal: ¿Por qué la función de hipótesis se considera la media de la variable aleatoria y?

En sus apuntes sobre aprendizaje automático (capítulo 3) http://cs229.stanford.edu/notes/cs229-notes1.pdf , Andrew Ng glosa algunas matemáticas. Al cuantificar la variable aleatoria y : $$y^{(i)}=\theta ^{T}x^{(i)}+e^{(i)}$$

e se conjura para representar el ruido aleatorio/factores no tenidos en cuenta por el modelo de hipótesis. Si es así, ¿por qué x ¿también se cuenta una variable aleatoria? Además, ¿por qué e ¿se supone que tiene media 0? ¿No sería un caso más general suponer una media de ? Además, entiendo la forma matemática de la distribución gaussiana, $$\frac{1}{\sqrt{2\pi \sigma }}e^{-\frac{(q-\mu)^{2}}{2\sigma ^{2}}}$$ pero no entiendo cómo se puede concluir que la función de la hipótesis, $$\theta ^{T}x^{(i)}$$ constituye la media de la variable aleatoria y lo que implica: $$p(y^{(i)}|x^{(i)};\theta )=\frac{1}{\sqrt{2\pi \sigma }}e^{-\frac{[y^{(i)}-\theta ^{T}x^{(i)}]^{2}}{2\sigma ^{2}}}$$ Gracias por su ayuda para comprender estas sutilezas.

2voto

Claudia Puntos 6

Utilizaré la notación de Andrew Ng (que es un poco inusual). En la sección Interpretación probabilística hace varias suposiciones:

  1. $y^{(i)} = \theta^T x^{(i)} + \epsilon^{(i)}$ (existe una relación lineal entre $y^{(i)}$ y $x^{(i)}$ ),
  2. En $\epsilon^{(i)}$ son ruidos aleatorios que se modelan como variables aleatorias gaussianas independientes idénticamente distribuidas (iid) con media cero y cierta desviación típica $\sigma$ .

Podrías modelar $\epsilon^{(i)}$ tiene tener una media más general pero es innecesario porque asume un término de sesgo $\theta_0$ y $x_0=1$ Eso es, $$ y^{(i)} = \theta_0\cdot 1 + \theta_1 x_1^{(i)} + \ldots + \theta_n x_n^{(i)} + \epsilon^{(i)} $$ y el problema de regresión se entiende generalmente como la estimación de $\theta$ para llegar al valor medio de $y$ para un valor determinado de $x$ . Recuerde que para un valor fijo de $x$ puede haber varios valores de $y$ (ruidoso $y$ ) y tener una función entre $x$ y $y$ debe elegir un valor (representativo) de $y$ . Tradicionalmente esta elección ha sido la media de $y$ .

Esta presentación de la regresión lineal supone una relación lineal entre $x$ y $y$ donde la variación observada en $y$ procede del término de ruido $\epsilon$ . Desde el $\epsilon^{(i)}$ se supone que los términos son iid todos tienen la misma media (son independientes y tienen la misma distribución, lo que significa que tienen la misma media). Si la media de los $\epsilon^{(i)}=\mu$ entonces podrías transferir la media de los términos de ruido al término de sesgo $\theta_0$ y terminan con las mismas respuestas para el $y^{(i)}$ valores. Así que, por simplicidad (o convención), la mayoría de la gente asume que el término de ruido tiene una media de cero.

Declaraciones sobre $y$ suelen estar condicionadas a $x$ . Así, por ejemplo, la media de $y^{(i)}$ condicionado a $x^{(i)}$ es $$ \mathbb{E}\left [y^{(i)}\mid x^{(i)}; \theta\right ]= \mathbb{E}\left [\theta^{T} x^{(i)} + \epsilon^{(i)} \mid x^{(i)}; \theta\right ] = \theta^{T} x^{(i)} + \mathbb{E}[\epsilon^{(i)} \mid x^{(i)}; \theta] = \theta^{T}x^{(i)} $$ desde $\theta^{T} x^{(i)}$ es constante dado $x^{(i)}$ y $\epsilon^{(i)}$ tiene una media de cero. Análogamente, $y^{(i)}$ no tiene necesariamente una distribución normal en este tipo de modelo de regresión lineal, pero los supuestos anteriores implican que la distribución condicional de $y^{(i)}$ dado $x^{(i)}$ se distribuye normalmente con media $\theta^{T}x^{(i)}$ y desviación típica $\sigma$ .

0voto

Michael Hardy Puntos 128804

Se supone que un valor ajustado es una estimación de la media $y$ -para un determinado $x$ -valor. La cantidad media en que una variable aleatoria se desvía de su media es $0.$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X