Una comprensión completa de esta cuestión requiere una teoría de la integración sobre la probabilidad distribuciones, no sólo funciones. Sin embargo, incluso en una teoría tan abstracta es posible visualizar las integrales como áreas bajo curvas. El principio universal es que en cualquier teoría "razonable" de integración, debería ser posible integrar por partes.
Consideremos la formulación integral habitual de una expectativa de una función $S$ para una distribución $F$ con función de densidad $f(x) = F^\prime(x).$ Esto viene dado por
$$E_X[S(X)] = \int_{-\infty}^\infty S(x) f(x) \mathrm{d}x.$$
Supongamos que $S$ tiene dos propiedades, ninguna de las cuales limita gravemente la teoría:
-
$S$ es diferenciable y
-
Los valores límite de $S(x)F(x)$ en $-\infty$ y $S(x)(1-F(x))$ en $\infty$ son cero. (Esto equivale a suponer $S$ tiene una expectativa).
La primera nos permite aplicar la integración por partes, mientras que la segunda nos permite hacer frente a los límites infinitos de la integración. Para ello, tendremos que dividir la integral en dos en algún valor conveniente (finito); para simplificar, vamos a dividirla en cero. En la región negativa, escribimos $f(x) = F^\prime(x)$ pero en la región positiva, $f(x) = -\frac{d}{dx}(1-F(x)).$ Integrando cada integral por partes por separado se obtiene
$$\eqalign{ E_X[S(X)] &= &\int_{-\infty}^0 S(x) f(x) \mathrm{d}x + \int_0^\infty S(x) f(x) \mathrm{d}x \\ &= &\left(S(x)F(x)\left|_{-\infty}^0\right. - \int_{-\infty}^0 S^\prime(x) F(x) \mathrm{d}x\right) + \\&&\left(-S(x)(1-F(x))\left|_0^\infty\right. + \int_0^{\infty} S^\prime(x) (1-F(x)) \mathrm{d}x\right) \\ &= &\int_0^{\infty} S^\prime(x) (1-F(x)) \mathrm{d}x - \int_{-\infty}^0 S^\prime(x) F(x) \mathrm{d}x.\tag{*} }$$
Podemos imaginarnos este proceso dibujando las áreas consideradas, ignorando el factor de $S^\prime (x)$ por el momento:
La imagen de la izquierda representa la función de densidad $f,$ los gráficos centrales de la función de distribución $F,$ y la derecha grafica la función $F$ para valores negativos de $x$ y $1-F$ para los valores positivos. Cuando se escalan las alturas del gráfico de la derecha por los valores de $S^\prime(x),$ la expectativa es el área correspondiente (con signo) bajo la curva .
Pasemos ahora a una distribución sin densidad, como una distribución discreta. Aquí están los gráficos correspondientes para una distribución que pone la probabilidad $1-p$ en el valor $-1$ y $p$ en el valor $1$ (una distribución de Rademacher):
(El gráfico de la densidad $f$ se omite porque, aunque existe como densidad, no existe como función y, por tanto, no tiene gráfico).
Como ejemplo de cómo $(*)$ funciona, calculemos una expectativa para esta distribución. Las integrales son finitas porque cuando $x \lt -1,$ $F(x)=0$ y cuando $x \ge 1,$ $1-F(x)=0.$ Así:
$$\eqalign{ E[S] &= \int_0^{\infty} S^\prime(x) (1-F(x)) \mathrm{d}x - \int_{-\infty}^0 S^\prime(x) F(x) \mathrm{d}x \\ &= \int_0^1 S^\prime(x)(1 - (1-p)) \mathrm{d}x - \int_{-1}^0 S^\prime(x) (1-p)\mathrm{d}x\\ &=(1 - (1-p))S(x)\left|_0^1\right. - (1-p) S(x)\left|_{-1}^0 \right. \\ &= (1-p)S(-1) + pS(1). }$$
Es la suma de los valores de $S$ (en $\pm 1$ ) multiplicado por sus probabilidades. Una generalización de este cálculo muestra que esta integral es precisamente una suma de valores multiplicada por las probabilidades para cualquier distribución discreta:
Cuando $F$ es una distribución discreta soportada en valores $x_1,x_2,x_3, \ldots,$ con las correspondientes probabilidades $p_1, p_2, p_3, \ldots,$ entonces la expresión $(*)$ es $$E[S(X)] = \int_0^{\infty} S^\prime(x) (1-F(x)) \mathrm{d}x - \int_{-\infty}^0 S^\prime(x) F(x) \mathrm{d}x = \sum_{i=1}^\infty S(x_i)p_i.$$ Las integrales pueden interpretarse como áreas con signo, aunque $F$ no tiene función de densidad. De hecho, cuando $S^\prime$ es continua a trozos, las integrales pueden interpretarse como integrales de Riemann.