La primera vez que se suele ver este concepto es en la regresión lineal.
Supongamos que tenemos una relación hipotética entre dos variables aleatorias del tipo
$$ Y = aX + b + \epsilon $$
donde $\epsilon$ es alguna variable no observada que es simétrica respecto a su media de cero. Ahora supongamos que tomamos algunas observaciones de $X$ y $Y$ y quiero usarlos para averiguar una buena estimación de los parámetros $a$ y $b$ en la relación. Pues bien, el valor de $X$ influye claramente en el valor de $Y$ por lo que es posible que queramos proceder en dos etapas:
- Dado que conozco un valor de $X$ ya, ¿qué puedo deducir sobre la distribución de $Y$ ?
- ¿Cuál es la distribución de $X$ ?
Un primer corte a la primera pregunta es preguntar:
Si conozco un valor de $X$ ya, ¿cuál es la media de $Y$ ?
Y esta es la expectativa condicional de $Y$ dado $X$ normalmente anotado $E(Y \mid X)$ (y que algunos denominan media condicional). Esta es la cantidad que la regresión lineal pretende estimar, porque:
$$ \begin{align} E(Y \mid X) &= a*E(X \mid X) + bE(1 \mid X) + E(\epsilon \mid X) \\ &= aX + b + 0 \\ &= aX + b \end{align} $$
Averiguar qué ocurre en cada uno de estos pasos y, posiblemente, qué me he dejado sin decir que es necesario para realizar el cálculo, es una buena forma de poner a prueba tu comprensión del concepto.
En series temporales, a menudo se construyen modelos autorregresivos, que asumen una relación como:
$$ Y_k = a_0 + a_1 Y_{k-1} + a_2 Y_{k-2} + \epsilon_k $$
por ejemplo. En este caso, el mismo tipo de razonamiento nos dice que realmente nos gustaría conocer la media de $Y_k$ dado que ya conoce los valores de $Y_{k-1}$ y $Y_{k-2}$ . Esto se llama $E(Y_k \mid Y_{k-1}, Y_{k-2})$ . La coma a la derecha del símbolo de condición significa y en este contexto.
Entiendo lo que has explicado, y supongo que mi confusión es... ¿qué modelo de regresión o proyección de interés no es la media condicional? Es decir, ¿cómo es que esa caracterización añade alguna información sobre el modelo que a uno le interesa? Si hubiera modelos de interés que no entran en esa caracterización, puedo entender que esa caracterización transmita información. Pero la única caracterización que se me ocurre que no sea la media condicional es una fuente de ruido puro. Pero como he dicho, soy nuevo en el campo, así que creo que me debo estar perdiendo todo un cuerpo de modelos (de interés).
Fíjate en que he llegado a la media condicional preguntándome a mí mismo:
¿Qué es algo sencillo que me gustaría saber sobre la distribución de $Y$ dado que ya sé $X$ ?
Bueno, hay muchas cosas que podría preguntar:
- ¿Cuál es la media de $Y$ dado $X$ ?
- ¿Cuál es la mediana de $Y$ dado $X$ ?
- ¿Cuál es el $90$ percentil de $Y$ dado $X$ ?
Todas estas preguntas son válidas, y existe un modelo para cada una de ellas. Para obtener la media condicional de $Y$ dado X, se minimiza el error cuadrático esperado:
$$ E(Y \mid X) = arg\,min_f E\left( (Y - f(X))^2 \right)$$
Para llegar a la mediana condicional se minimiza el error absoluto esperado:
$$ Median(Y \mid X) = arg\,min_f E\left( \left| Y - f(X) \right| \right)$$
Para llegar al percentil 90 hay que hacer algo más inteligente. Los dos últimos casos están cubiertos por una teoría llamada regresión cuantil . Tiene buenas propiedades, como la resistencia a los valores atípicos y la asimetría, al igual que la mediana.