Estoy de acuerdo en que el lenguaje es, en el mejor de los casos, chapucero, pero ¿quizás lo que quieren decir es lo siguiente?
Dejemos que $T=\{(x_i, y_i) : i \in \{1, 2, ..., N\}\}$ sean los datos de entrenamiento y $(x^*, y^*)$ sean los nuevos datos. Acordemos que el $N+1$ los puntos de datos son independientes. Es decir, hay alguna probabilidad conjunta $p(x,y)$ para cada punto de datos - y obviamente no se sabe qué $p(x,y)$ es - pero cada punto de datos se dibuja de acuerdo con ella de forma independiente. (Una posible probabilidad conjunta de este tipo es, por ejemplo $y = f(x) + \varepsilon$ para algún lineal $f$ y el modelo de ruido $\varepsilon$ por ejemplo, gaussiano $N(0,1)$ pero esto no es realmente necesario).
Ahora, $\hat{f}$ es una función determinista de $T$ y $\hat{y}^* = \hat{f}(x^*) $ es una función determinista de $T$ y $x^*$ . Esto también significa, condicionado a $x^*$ solo, $\hat{y}^*$ tiene una determinada distribución marginal (con la "variabilidad" procedente del azar $T$ ).
Mientras tanto, $y^*$ tiene una determinada distribución marginal condicionada al valor $x^*$ , basado en $p(x,y)$ . Tal vez lo que quieren decir es: Condicionado a $x^*$ entonces $\hat{y}^*$ y $y^*$ son independientes. Para ser más precisos, esto significa que, condicionado a $x^*=a$ (algún valor específico), si $T$ es tal que se calcula $\hat{y}^*=b$ (algún valor específico), esto no afecta a la distribución de $y^*$ es decir $y^*$ sigue teniendo la misma distribución marginal de siempre, que es $p(y|x=a)$ . El hecho de que antes fuera ignorante, y ahora esté más informado, es completamente irrelevante - su conocimiento/ignorancia no afectó $y^*$ un poco.
De hecho, para el caso concreto de $y = f(x) + \varepsilon$ y si naturalmente asumimos que cada muestreo de $\varepsilon$ es independiente, entonces condicionado a $x^* = a$ (algún valor específico), $y = f(a) + \varepsilon$ que es ciertamente independiente de todo lo demás.
Lo que tienes en mente es quizás algo así: "Antes de construir el modelo no tenía ni idea de lo que $y^*$ sería, pero ahora tengo una buena idea". En concreto, supongamos que construyes el modelo y calculas $\hat{y}^*=b$ . Así que ahora dices, antes del modelo la "probabilidad" de que $y^* \approx b$ (digamos que se define como $|y^* - b| < 10$ ) es "baja", pero después del modelo la "probabilidad" de que $y^* \approx b$ es "alta". Pero de hecho (según la visión clásica), tanto antes como después de construir el modelo, la verdadera probabilidad de que $y^* \approx b$ sigue siendo el mismo, y supongamos que es realmente alto (es decir, que su modelo era bueno), entonces simplemente se equivocó antes de construir su modelo. Otra forma de verlo es que, antes del modelo, ni siquiera puedes suponer de forma significativa que la probabilidad sea "baja".
El escenario en el que su idea tiene sentido, es si hay alguna distribución a-priori en el espacio de todos los posibles $p(x,y)$ en sí mismo. Un ejemplo más sencillo y diferente puede ilustrar esto. Supongamos que tenemos una moneda con un sesgo desconocido $p = Prob(H)$ . Desea "aprender" el sesgo y predecir futuros lanzamientos. Así que lanza la moneda $N-1$ veces, y calcular $M =$ el resultado mayoritario entre esas tiradas, y utilizarlo para "predecir" la siguiente tirada. Son $M$ y el $N$ ¿el flip independiente?
-
En la visión clásica, SÍ son independientes. Es decir, para cualquier $p$ (el verdadero modelo), $M$ y el $N$ son independientes, y $P(Nth\ flip\ =H) = p$ independientemente de que antes hubiera más cabezas ( $M=H$ ) o más colas antes ( $M=T$ ).
-
Sin embargo, si también se le da que $p$ se distribuye uniformemente dentro de $(0,1)$ entonces NO, $M$ y el $N$ ya no son independientes. Una vez que se sabe $p \sim U(0,1)$ se puede decir con sentido, a priori, que $P(Nth\ flip\ =H) = 1/2$ (es decir, el promedio de todos los $p$ ), pero también se puede demostrar (tras un poco de álgebra) que $P(Nth\ flip\ = H | M=H) > 1/2$ , así que claramente $M$ y el $N$ son dependientes.
Podrías argumentar, pero no sabemos $p$ ¡! ¡Así que el punto de vista clásico es "hacer trampa"! En respuesta, su oponente podría decir, pero si usted no sabe $p$ (y no están dispuestos a asumir algo como $p \sim U(0,1)$ ), entonces no se puede calcular de forma significativa $P(Nth\ flip\ =H)$ y $P(Nth\ flip\ =H | M=H)$ ¿Cómo puedes decir que son desiguales?
Espero que esto tenga sentido.