6 votos

¿Puede una media ponderada óptima tener alguna vez ponderaciones negativas?

Tengo algunas medidas $\vec{x}$ para algún valor del mundo real $\hat{x}$ . Estas mediciones tienen cierta incertidumbre y están correlacionadas. Dadas estas estimaciones, y sus covarianzas, quiero tomar algún tipo de media ponderada de las estimaciones

$$\bar{x} = \sum_i w_i x_i = \vec{w} \cdot \vec{x}$$

Naturalmente, quiero que mis pesos sumen 1:

$$\sum_i w_i = 1 = \vec{w} \cdot \vec{1}$$

Quiero elegir mis pesos de tal manera que mi incertidumbre en torno a esta estimación sea lo más baja posible, por lo que quiero minimizar:

$$\mathbb{E} \left[ \left( \bar{x} - \hat{x} \right)^2 \right] = \sum_i \sum_j w_i w_j C_{i,j} = \vec{w}^T C \vec{w}$$

donde $C$ es la matriz de covarianza de los errores de mis mediciones: $C_{i,j}=\mathbb{E} \left[ x_i - \hat{x}, x_j - \hat{x} \right]$ . Minimizar esto bajo la restricción de que los pesos sumen 1 se puede hacer usando un multiplicador de Lagrange, y (asumiendo que hice todo bien) resulta en:

$$ C \cdot \vec{w^*} = \vec{1}$$ $$ \vec{w} = \vec{w^*} / \sum \vec{w^*} $$

Obsérvese que este último paso consiste simplemente en reescalar $\vec{w^*}$ sume 1, así que me interesa sobre todo la solución de $\vec{w^*}$ :

$$ \vec{w^*} = C^{-1} \cdot \vec{1}$$

Este procedimiento da como resultado ponderaciones negativas. Esto no tiene sentido para mí intuitivamente. (Por ejemplo, si sólo tengo una estimación $x_1$ de 100, entonces obviamente mi estimación total $\bar{x}$ también será de 100. ¿Cómo podría la introducción de otra medida, de 110, hacer que mi estimación global $\bar{x}$ disminuye por debajo de 100?) Así que sospecho que estoy haciendo algo mal, como utilizar una matriz de covarianza incoherente. Pero, ¿es definitivo ¿que estoy haciendo algo mal?

¿Puede el procedimiento anterior razonablemente devolver pesos negativos? ¿Qué sentido tendría esto en términos de las implicaciones reales de lo que estoy intentando hacer (tomar una media ponderada de múltiples estimaciones)?

5voto

kjetil b halvorsen Puntos 7012

Además de la otra excelente respuesta. Sí, puede dar pesos negativos, en algunos casos, aunque eso pueda parecer contraintuitivo. Veámoslo. En primer lugar, pasaré a resolver el problema de minimización (y simplificaré su notación, sustituyendo $\vec{w}$ con $w$ etc.).

Introducción del multiplicador de Lagrange $\lambda$ define $$ L(w)= w^T C w -2 \lambda (w^T 1-1). $$ Entonces encontramos las derivadas parciales $$ \frac{\partial L}{\partial \lambda}= w^T 1 - 1 \\ \frac{\partial L}{\partial w} = 2 C w - 2 \lambda 1 $$ Si se iguala a cero y se resuelve suponiendo que $C$ es positiva definida (por tanto invertible) encontramos $$w = \lambda C^{-1} 1. $$ Para encontrar $\lambda$ empezar con $w^T = \lambda 1^T C^{-1}$ y postmultiplicar con el vector $1$ da $\lambda=\frac1{1^T C^{-1} 1}$ así que finalmente $$ w = \frac{C^{-1}1}{1^T C^{-1} 1}. $$ Si $C$ sólo es semidefinida positiva (por lo que no existen inversas), entonces la varianza se minimiza (y es igual a cero) mediante cualquier $w$ en el espacio nulo de $C$ . Veámoslo en el caso de dos mediciones de la misma cantidad del mundo real $X$ . Si la matriz de covarianza (de los errores de medición) tiene un espacio nulo de dimensión 1, esto significa que los dos términos de error son linealmente dependientes, un caso muy poco práctico. Pero entonces tenemos el modelo $$ y_1 = X+\epsilon \\ y_2=X+c\epsilon $$ para alguna variable de error $\epsilon$ con esperanza cero y varianza $\sigma^2$ . Esto significa que con probabilidad 1 el término de error $\epsilon_1, \epsilon_2$ pertenece al subespacio lineal $\{ (x_1, x_2)\in \mathbb{R}^2 \colon x_2=c x_1\}$ . El complemento ortogonal de este espacio (que es el espacio nulo de $C$ ) es $\{(w_1, w_2)\in\mathbb{R}^2 \colon w_2=-w_1/c\}$ y este subespacio contiene pesos óptimos $^\dagger$ . Entonces podemos calcular que $$ (y_1, y_2)^T w = (X+\epsilon) w_1 + (X+c\epsilon)w_2 = X(w_1+w_2)+(\epsilon w_1 + c \epsilon w_2) =X(w_1+w_2)+\epsilon(w_1-c w_1/c) = X$$ cuando en el último paso hemos utilizado que $w_1+w_2=1$ . Así pues, las ponderaciones negativas en este caso permiten filtrar el término de error completamente ¡para dejar una estimación sin errores!

Pero el peso negativo no sólo se da en este caso antinatural. Por un argumento de continuidad, si la correlación es suficientemente cercana a 1, podríamos esperar que ocurriera algo similar incluso si $C$ tiene rango completo, por lo que es definida positiva. Continuando el caso anterior con $n=2$ Escriba $C$ en forma general como $$ C=\begin{pmatrix} \sigma_1^2 & \rho \sigma_1 \sigma_2 \\ \rho\sigma_1\sigma_2 & \sigma_2^2\end{pmatrix} $$ Entonces podemos encontrar la inversa como $$ C^{-1}=\frac1{(1-\rho^2)\sigma_1\sigma_2}\begin{pmatrix} \frac{\sigma_2}{\sigma_1} & -\rho \\ -\rho & \frac{\sigma_1}{\sigma_2}\end{pmatrix} $$ y entonces podemos encontrar que los pesos son proporcionales a $$ (w_1,w_2) \propto \frac1{(1-\rho^2) \sigma_1 \sigma_2} \left(\frac{\sigma_2}{\sigma_1}-\rho, -\rho+\frac{\sigma_1}{\sigma_2}\right) $$ Ahora bien, si $\sigma_1=\sigma_2$ las ponderaciones son iguales y positivas, pero cuando éstas son diferentes, para algunas correlaciones suficientemente cercanas a 1, una de las ponderaciones es negativa. Por ejemplo, si $\sigma_1 < \sigma_2$ obtenemos $w_2<0$ . Por tanto, el peso de la medida menos precisa es negativo. La explicación intuitiva es que para la correlación $\rho$ suficientemente cercano a 1, ambos términos de error tendrán con alta probabilidad el mismo signo, por lo que tiene sentido que uno de los pesos sea negativo .

$^\dagger$ Nótese que en este argumento hemos supuesto realmente que $c>0$ (y si $c=1$ habrá que modificar el argumento). Si $c<0$ será prácticamente igual, pero debemos sustituir "correlación cercana a 1" por "correlación cercana a $-1$ ".

1 votos

(+1) Buena respuesta que explora el $n=2$ de forma más completa (y hace explícito que no se necesita una matriz de covarianza de rango deficiente para pesos negativos).

4voto

Martin Robins Puntos 1893

En teoría abstracta, sí, debido a la estructura de correlación.

Si tuviera mediciones no correlacionadas (con varianza positiva), las ponderaciones sólo podrían ser positivas.

Ejemplo:

Sea $\mu$ denotan el valor verdadero. Sea la medición ruidosa $X_1 \sim \mathcal{N}(\mu, 1)$ . Sea $X_2 = 2X_1 - \mu$ Por lo tanto $\operatorname{E}[X_2] = \mu$ pero $X_2$ está perfectamente correlacionada con $X_1$ . La matriz de covarianza es $ C = \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} $ .

La solución es $\mathbf{w} = \begin{bmatrix} 2 \\ -1 \end{bmatrix} $ . Observe $2X_1 - X_2 = \mu$ y esa combinación lineal no tiene varianza (porque $\mathbf{w}$ se encuentra en el espacio nulo de $C$ ).

(Como señala @kjetil b halvorsen y profundiza en su respuesta, los pesos negativos no se limitan a casos degenerados como éste).

Un problema financiero equivalente:

Un problema casi equivalente es resolver el cartera de varianza mínima en finanzas.

Sea $R$ denotan un vector de $n$ vuelve. Sea $C = \operatorname{Cov}(R)$ denotan la matriz de covarianza de $R$ . Sea $\mathbf{w}$ denotan un vector de ponderaciones de cartera.

La cartera de varianza mínima se encuentra resolviendo:

\begin{equation} \begin{array}{*2{>{\displaystyle}r}} \mbox{minimize (over $w_i$)} & \mathbf{w}'\Sigma \mathbf{w} \\ \mbox{subject to} & \mathbf{w}'\mathbf{1} = 1 \end{array} \end{equation}

Es exactamente el mismo problema y tiene exactamente la misma solución. Para invertible $C$ :

$$ \mathbf{w}_{mvp} = \frac{C^{-1} \mathbf{1}}{\mathbf{1}'C^{-1}\mathbf{1}}$$

¿Quizás en el contexto de la cartera sea más intuitivo que la cartera de varianza mínima implique tanto ir en largo como en corto? (Nota: antes de salir corriendo e intentar crear un fondo de inversión, tenga en cuenta que estimar $C$ tiene grandes problemas de tiempo).

Algunas interpretaciones del álgebra lineal

Sea $U'\Lambda U = C$ sea la descomposición de valores propios de $C$ . (Esto es básicamente PCA ). Entonces $Y = R U$ es un vector aleatorio de variables aleatorias no correlacionadas cuya varianza viene dada por la matriz diagonal de valores propios $\Lambda$ . La cartera de varianza mínima le dará ponderaciones positivas a estas variables aleatorias $Y_1, \ldots, Y_n$ pero como estos componentes son a su vez combinaciones lineales de los rendimientos de los valores, puede obtener ponderaciones positivas y negativas en el espacio de ponderaciones de los valores.

0 votos

Quizá esto sea tangencial a la pregunta, pero me interesaría saber más sobre los "grandes problemas temporales" asociados a la informática $C$ -- ¿Es tan simple como que los resultados del pasado no son indicativos del futuro, o es más sutil? Esto es puramente para mi edificación (+1)

2 votos

@Sycorax Si tienes $n$ devuelve, entonces usted tiene $\frac{n(n-1)}{2}$ términos de covarianza. Así que en el momento en que se empieza a salir de algunas categorías enormes (por ejemplo, S&P500, etc.), se empieza a tener una explosión de términos que estimar. La estructura de correlación también cambia con el tiempo. De todos modos, la estimación de matrices de covarianza es en sí misma un gran tema. (La estimación de los rendimientos esperados es aún peor.) La optimización ingenua de carteras suele adolecer del problema de las "ponderaciones chifladas" (por ejemplo, te dice que vayas largo en Europa un 300% y corto en Japón un 200%). Una entrada basura conduce a un resultado basura.

0 votos

Todos estos son buenos puntos. Gracias por compartirlos. He estado jugando con el aprendizaje por refuerzo para la optimización de la cartera puramente en una alondra por lo que tengo un interés pasatiempo en el tema.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X