23 votos

¿Por qué el log-of-sum-of-exponentials $f(x)=\log\left(\sum_{i=1}^n e^ {x_i}\right)$ es una función convexa para $x \in\mathbb R^n$?

¿Cómo probar que $f(x)=\log\left(\displaystyle\sum_{i=1}^n e^{x_i}\right)$ es una función convexa?

EDIT1: para la función anterior $f(x)$, se mantienen las siguientes desigualdades:

$$\max\{x_1,x_2,\ldots,x_n\}\leqslant f(x)\leqslant\max\{x_1,x_2,\ldots,x_n\}+\log n$$

y he intentado probar su convexidad a través de la definición de una función convexa con desigualdades anteriores, pero eso no funcionó.

EDIT2: He publicado mis respuestas a continuación.

26voto

Finley Puntos 6

Prueba:

Let $u_i=e^ {x_i} ,v_i=e^ {y_i}$. So $f(\theta x+(1-\theta)y)=log(\sum_ {i=1}^n e^{\theta x_i + (1-\theta)y_i})=log(\sum_ {i=1}^n u_i^ \theta v_i^{(1-\theta)})$

De la desigualdad de Hölder:

$$\sum_ {i=1}^n x_iy_i \le (\sum_ {i=1}^n|x_i|^p)^{\frac{1}{p}} \cdot (\sum_ {i=1}^n|x_i|^q)^{\frac{1}{q}}$$ where $1/p+1/q=1$.

Aplicando esta desigualdad a $f(\theta x+(1-\theta)y)$: $ $ log(\sum_ {i=1}^n u_i^ \theta v_i^{(1-\theta)}) \le log[(\sum_ {i=1}^n u_i^ {\theta \cdot \frac{1}{\theta}})^ \theta \cdot (\sum_ {i=1}^n v_i^ {1-\theta \cdot \frac{1}{1-\theta}})^ {1-\theta}]$ $ La fórmula correcta se puede reducir a:

$$\theta log\sum_ {i=1}^n u_i+(1-\theta)log\sum_ {i=1}^n v_i$$

Aquí considero a $\theta$ como $\frac{1}{p}$ y a $1-\theta$ como $\frac{1}{q}$.

Así que lo logro $f(\theta x+(1-\theta)y) \le \theta f(x) + (1-\theta)f(y)$.

15voto

orangeskid Puntos 13528

Es suficiente para mostrar que $$\frac{1}{2} \log (\sum \exp x_i) + \frac{1}{2}\log (\sum \exp y_i)\ge \log (\sum \exp\frac{x_i+y_i}{2})$$ o, con la sustitución $\exp\frac{x_i}{2} = a_i$, $\exp\frac{y_i}{2} = b_i$ # $$(\sum a_i^2)^{\frac{1}{2}}(\sum b_i^2)^{\frac{1}{2}}\ge \sum a_i b_i$$

6voto

satish ramanathan Puntos 4892

Otra forma de demostrar la convexidad de esta función es utilizar la desigualdad de Jensen que establece que una función es convexa si y sólo si

$$f(tX+(1-t)Y) \le t f(X) + (1-t)f(Y)$$

Ahora que $X$ sea representado por el vector $({X_1, X_2, X_3,... X_n})$,

y dejemos que $Y$ sea representado por el vector $({Y_1, Y_2, Y_3,... Y_n})$

Let $t = \dfrac{1}{2}$

$$f(tX+(1-t)Y) = \log\left(\sum_{i=1}^{n} e^{\frac{X_i+Y_i}{2}}\right)$$

$$\text{RHS} = \frac{1}{2} \log\left(\sum_{i = 1}^{n} e^{X_i}\right)+ \frac{1}{2} \log\left(\sum_{i = 1}^{n} e^{Y_i}\right)$$

$$\text{RHS} = \frac{1}{2} \log\left(\sum_{i = 1}^{n} e^{X_i}\sum_{i = 1}^{n} e^{Y_i}\right)$$

RHS contiene más términos de producto cruzado que el LHS, por lo que es más grande que LHS y, por lo tanto, la función es convexa.

2voto

Nicholas Liu Puntos 10

Para que una función multivariante sea convexa, es equivalente a mostrar que su matriz de Hesse es semidefinida positiva. Es decir, puedes calcular $\nabla^2 f(\mathbf{x})$ aquí y mostrar que es semi-definido positivo.

Esto se puede probar usando la desigualdad de Cauchy Schwarz como se muestra aquí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X