1 votos

¿Por qué $y^*$ y $\hat{y}^*$ ¿Independiente?

Una afirmación común que se hace en varios contextos, y que se utiliza para demostrar algunos resultados bastante importantes, es que, debido a que una observación dada no se utilizó explícitamente en la creación de un determinado modelo estadístico, que la predicción dada por ese modelo es independiente de esa observación.

Por ejemplo, supongamos que $y$ puede ser modelado (el modelo verdadero) en $x$ linealmente por \begin{equation*} y = f(x) + \varepsilon \end{equation*} para alguna función lineal $f$ y el ruido aleatorio $\varepsilon$ . Sea $\hat{f}$ sea la estimación por mínimos cuadrados de $f$ se obtiene mediante una regresión lineal sobre una colección de observaciones simultáneas de $y$ y $x$ . Sea $(x^*,y^*)$ ser una observación no parte de los datos de formación utilizados para construir $\hat{f}$ y que $\hat{y}^* = \hat{f}(x^*)$ El valor de $y$ predicho por su modelo de mínimos cuadrados. Al demostrar, por ejemplo, que la distribución de $y^* - \hat{y}^*$ tiene media $0$ y varianza = (la fórmula no es importante aquí), uno se encuentra con la afirmación

"desde $y^*$ no se utilizó en el cálculo de $\hat{y}^*$ se deduce que $y^*$ y $\hat{y}^*$ son independientes, y por lo tanto $\text{Cov}(y^*,\hat{y}^*) = 0$ ."

Se pueden encontrar afirmaciones análogas en otros contextos, por ejemplo en el teorema de compensación sesgo-varianza para los métodos de aprendizaje estadístico.

Esta afirmación no tiene sentido para mí. Sí, entiendo que $\hat{f}$ no es directamente depende del valor $y^*$ ya que no se incluyó en los datos de entrenamiento. Pero decir que son independientes es decir que el conocimiento de uno de ellos no debería dar una idea mejor del otro. Esto es obviamente un sinsentido; ¿qué sentido tiene construir y $\hat{f}$ para empezar si su valor en $x^*$ no le permite adivinar el valor de $y^*$ ?

¿Existe un implícito condicional ¿Independencia que se da a entender aquí? Porque, como se ha dicho, esto parece evidentemente falso.

Gracias de antemano por cualquier aclaración.

0voto

C Monsour Puntos 1219

Si x fuera aleatoria habría que hablar de independencia condicional. Pero tradicionalmente se considera que x es constante a menos que se diga explícitamente lo contrario. Así que la afirmación de independencia es correcta.

Y, sí, es confuso.

0voto

antkam Puntos 106

Estoy de acuerdo en que el lenguaje es, en el mejor de los casos, chapucero, pero ¿quizás lo que quieren decir es lo siguiente?

Dejemos que $T=\{(x_i, y_i) : i \in \{1, 2, ..., N\}\}$ sean los datos de entrenamiento y $(x^*, y^*)$ sean los nuevos datos. Acordemos que el $N+1$ los puntos de datos son independientes. Es decir, hay alguna probabilidad conjunta $p(x,y)$ para cada punto de datos - y obviamente no se sabe qué $p(x,y)$ es - pero cada punto de datos se dibuja de acuerdo con ella de forma independiente. (Una posible probabilidad conjunta de este tipo es, por ejemplo $y = f(x) + \varepsilon$ para algún lineal $f$ y el modelo de ruido $\varepsilon$ por ejemplo, gaussiano $N(0,1)$ pero esto no es realmente necesario).

Ahora, $\hat{f}$ es una función determinista de $T$ y $\hat{y}^* = \hat{f}(x^*) $ es una función determinista de $T$ y $x^*$ . Esto también significa, condicionado a $x^*$ solo, $\hat{y}^*$ tiene una determinada distribución marginal (con la "variabilidad" procedente del azar $T$ ).

Mientras tanto, $y^*$ tiene una determinada distribución marginal condicionada al valor $x^*$ , basado en $p(x,y)$ . Tal vez lo que quieren decir es: Condicionado a $x^*$ entonces $\hat{y}^*$ y $y^*$ son independientes. Para ser más precisos, esto significa que, condicionado a $x^*=a$ (algún valor específico), si $T$ es tal que se calcula $\hat{y}^*=b$ (algún valor específico), esto no afecta a la distribución de $y^*$ es decir $y^*$ sigue teniendo la misma distribución marginal de siempre, que es $p(y|x=a)$ . El hecho de que antes fuera ignorante, y ahora esté más informado, es completamente irrelevante - su conocimiento/ignorancia no afectó $y^*$ un poco.

De hecho, para el caso concreto de $y = f(x) + \varepsilon$ y si naturalmente asumimos que cada muestreo de $\varepsilon$ es independiente, entonces condicionado a $x^* = a$ (algún valor específico), $y = f(a) + \varepsilon$ que es ciertamente independiente de todo lo demás.

Lo que tienes en mente es quizás algo así: "Antes de construir el modelo no tenía ni idea de lo que $y^*$ sería, pero ahora tengo una buena idea". En concreto, supongamos que construyes el modelo y calculas $\hat{y}^*=b$ . Así que ahora dices, antes del modelo la "probabilidad" de que $y^* \approx b$ (digamos que se define como $|y^* - b| < 10$ ) es "baja", pero después del modelo la "probabilidad" de que $y^* \approx b$ es "alta". Pero de hecho (según la visión clásica), tanto antes como después de construir el modelo, la verdadera probabilidad de que $y^* \approx b$ sigue siendo el mismo, y supongamos que es realmente alto (es decir, que su modelo era bueno), entonces simplemente se equivocó antes de construir su modelo. Otra forma de verlo es que, antes del modelo, ni siquiera puedes suponer de forma significativa que la probabilidad sea "baja".

El escenario en el que su idea tiene sentido, es si hay alguna distribución a-priori en el espacio de todos los posibles $p(x,y)$ en sí mismo. Un ejemplo más sencillo y diferente puede ilustrar esto. Supongamos que tenemos una moneda con un sesgo desconocido $p = Prob(H)$ . Desea "aprender" el sesgo y predecir futuros lanzamientos. Así que lanza la moneda $N-1$ veces, y calcular $M =$ el resultado mayoritario entre esas tiradas, y utilizarlo para "predecir" la siguiente tirada. Son $M$ y el $N$ ¿el flip independiente?

  • En la visión clásica, SÍ son independientes. Es decir, para cualquier $p$ (el verdadero modelo), $M$ y el $N$ son independientes, y $P(Nth\ flip\ =H) = p$ independientemente de que antes hubiera más cabezas ( $M=H$ ) o más colas antes ( $M=T$ ).

  • Sin embargo, si también se le da que $p$ se distribuye uniformemente dentro de $(0,1)$ entonces NO, $M$ y el $N$ ya no son independientes. Una vez que se sabe $p \sim U(0,1)$ se puede decir con sentido, a priori, que $P(Nth\ flip\ =H) = 1/2$ (es decir, el promedio de todos los $p$ ), pero también se puede demostrar (tras un poco de álgebra) que $P(Nth\ flip\ = H | M=H) > 1/2$ , así que claramente $M$ y el $N$ son dependientes.

Podrías argumentar, pero no sabemos $p$ ¡! ¡Así que el punto de vista clásico es "hacer trampa"! En respuesta, su oponente podría decir, pero si usted no sabe $p$ (y no están dispuestos a asumir algo como $p \sim U(0,1)$ ), entonces no se puede calcular de forma significativa $P(Nth\ flip\ =H)$ y $P(Nth\ flip\ =H | M=H)$ ¿Cómo puedes decir que son desiguales?

Espero que esto tenga sentido.

0voto

Mike Crumley Puntos 8

Gracias a los dos, eso aclara las cosas perfectamente. Creo que me quedé atascado al no darme cuenta de que $\hat{f}$ como variable aleatoria, es una función del datos de entrenamiento , no de $x^*$ mientras que $y^*$ es una función de $x^*$ (más alguna aleatoriedad adicional también independiente de los datos de entrenamiento). La independencia de $x^*$ de los datos de entrenamiento hace que esto sea bastante obvio. Gracias de nuevo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X