La primera vez que se suele ver este concepto es en la regresión lineal.
Supongamos que tenemos una relación hipotética entre dos variables aleatorias del tipo
Y=aX+b+ϵY=aX+b+ϵ
donde ϵϵ es alguna variable no observada que es simétrica respecto a su media de cero. Ahora supongamos que tomamos algunas observaciones de XX y YY y quiero usarlos para averiguar una buena estimación de los parámetros aa y bb en la relación. Pues bien, el valor de XX influye claramente en el valor de YY por lo que es posible que queramos proceder en dos etapas:
- Dado que conozco un valor de XX ya, ¿qué puedo deducir sobre la distribución de YY ?
- ¿Cuál es la distribución de XX ?
Un primer corte a la primera pregunta es preguntar:
Si conozco un valor de XX ya, ¿cuál es la media de YY ?
Y esta es la expectativa condicional de YY dado XX normalmente anotado E(Y∣X)E(Y∣X) (y que algunos denominan media condicional). Esta es la cantidad que la regresión lineal pretende estimar, porque:
E(Y∣X)=a∗E(X∣X)+bE(1∣X)+E(ϵ∣X)=aX+b+0=aX+b
Averiguar qué ocurre en cada uno de estos pasos y, posiblemente, qué me he dejado sin decir que es necesario para realizar el cálculo, es una buena forma de poner a prueba tu comprensión del concepto.
En series temporales, a menudo se construyen modelos autorregresivos, que asumen una relación como:
Yk=a0+a1Yk−1+a2Yk−2+ϵk
por ejemplo. En este caso, el mismo tipo de razonamiento nos dice que realmente nos gustaría conocer la media de Yk dado que ya conoce los valores de Yk−1 y Yk−2 . Esto se llama E(Yk∣Yk−1,Yk−2) . La coma a la derecha del símbolo de condición significa y en este contexto.
Entiendo lo que has explicado, y supongo que mi confusión es... ¿qué modelo de regresión o proyección de interés no es la media condicional? Es decir, ¿cómo es que esa caracterización añade alguna información sobre el modelo que a uno le interesa? Si hubiera modelos de interés que no entran en esa caracterización, puedo entender que esa caracterización transmita información. Pero la única caracterización que se me ocurre que no sea la media condicional es una fuente de ruido puro. Pero como he dicho, soy nuevo en el campo, así que creo que me debo estar perdiendo todo un cuerpo de modelos (de interés).
Fíjate en que he llegado a la media condicional preguntándome a mí mismo:
¿Qué es algo sencillo que me gustaría saber sobre la distribución de Y dado que ya sé X ?
Bueno, hay muchas cosas que podría preguntar:
- ¿Cuál es la media de Y dado X ?
- ¿Cuál es la mediana de Y dado X ?
- ¿Cuál es el 90 percentil de Y dado X ?
Todas estas preguntas son válidas, y existe un modelo para cada una de ellas. Para obtener la media condicional de Y dado X, se minimiza el error cuadrático esperado:
E(Y∣X)=argminfE((Y−f(X))2)
Para llegar a la mediana condicional se minimiza el error absoluto esperado:
Median(Y∣X)=argminfE(|Y−f(X)|)
Para llegar al percentil 90 hay que hacer algo más inteligente. Los dos últimos casos están cubiertos por una teoría llamada regresión cuantil . Tiene buenas propiedades, como la resistencia a los valores atípicos y la asimetría, al igual que la mediana.