46 votos

¿Cuál es la diferencia entre varianza finita e infinita?

¿Cuál es la diferencia entre varianza finita e infinita? Mi conocimiento de estadísticas es bastante básico; Wikipedia / Google no fue de mucha ayuda aquí.

12 votos

Las distribuciones con varianza infinita son de cola pesada; hay muchos valores atípicos y pueden tener propiedades que son diferentes de lo que uno está acostumbrado a ver. Por ejemplo, la media de la muestra de muestras extraídas de una distribución Cauchy tiene la misma distribución (Cauchy) que las muestras individuales. Esto es bastante diferente de la creencia habitual de que la media de la muestra es un mejor "estimador" que cualquier muestra individual.

0 votos

¿Tan pesado con = varianza infinita?

4 votos

No, heavy-tailed no es lo mismo que tener varianza infinita, o al menos, no en mi opinión. Sin embargo, no soy estadístico, por lo que deberías esperar una respuesta más autoritativa de usuarios altamente clasificados en este foro.

67voto

kjetil b halvorsen Puntos 7012

$\DeclareMathOperator{\E}{E} \DeclareMathOperator{\var}{var}$ ¿Qué significa que una variable aleatoria tenga "varianza infinita"? ¿Qué significa que una variable aleatoria tenga una expectativa infinita? La explicación en ambos casos es bastante similar, así que empecemos con el caso de la expectativa, y después con el de la varianza.

Dejemos que $X$ sea una variable aleatoria continua (RV) (nuestras conclusiones serán válidas de forma más general, para el caso discreto, sustituir integral por suma). Para simplificar la exposición, supongamos $X \ge 0$ .

Su expectativa está definida por la integral $$ \E X = \int_0^\infty x f(x) \, dx $$ cuando esa integral existe!, es decir, es finita. Si no, decimos que la expectativa no existe. Eso es una integral impropia, y por definición es $$ \int_0^\infty x f(x) \, dx = \lim_{a \rightarrow \infty} \int_0^a x f(x) \, dx $$ Para que ese límite sea finito, la contribución de la cola debe desaparecer, es decir, debemos tener $$ \lim_{a \rightarrow \infty} \int_a^\infty x f(x) \, dx =0 $$ Una condición necesaria (pero no suficiente) para que esto sea así es $\lim_{x\rightarrow \infty} x f(x) =0$ . Lo que dice la condición mostrada arriba, es que, el la contribución a la expectativa de la cola (derecha) debe ser desvanecida . Si no es así, la expectativa está dominada por las contribuciones de valores realizados arbitrariamente grandes . En la práctica, eso significará que las medias empíricas serán muy inestables, porque estará dominado por los infrecuentes valores muy grandes realizados . Y tenga en cuenta que esta inestabilidad de las medias muestrales no desaparecerá con muestras grandes, ¡es una parte integrada del modelo!

En muchas situaciones, eso parece poco realista. Digamos que un modelo de seguro (de vida), por lo que $X$ modela alguna vida (humana). Sabemos que, por ejemplo $X > 1000$ no se produce, pero en la práctica utilizamos modelos sin límite superior. La razón es clara: No duro Si se conoce el límite superior, si una persona tiene (digamos) 110 años, no hay razón para que no pueda vivir un año más. Así que un modelo con un límite superior duro parece artificial. Aun así, no queremos que la cola superior extrema tenga mucha influencia.

Si $X$ tiene una expectativa finita, entonces podemos cambiar el modelo para tener un límite superior duro sin influir indebidamente en el modelo. En situaciones con un límite superior difuso eso parece bueno. Si el modelo tiene una expectativa infinita, entonces, ¡cualquier límite superior duro que introduzcamos en el modelo tendrá consecuencias dramáticas! Esa es la verdadera importancia de la expectativa infinita.

Con una expectativa finita, podemos ser difusos en cuanto a los límites superiores. Con una expectativa infinita, no podemos .

Ahora bien, lo mismo puede decirse de la varianza infinita, mutatis mutandi.

Para que quede más claro, veamos un ejemplo. Para el ejemplo utilizamos la distribución de Pareto, implementada en el paquete R (en CRAN) actuar como pareto1--- distribución de Pareto de un solo parámetro también conocida como distribución de Pareto tipo 1. Tiene una función de densidad de probabilidad dada por $$ f(x) = \begin{cases} \frac{\alpha m^\alpha}{x^{\alpha+1}} &, x\ge m \\ 0 &, x<m \end{cases} $$ para algunos parámetros $m>0, \alpha>0$ . Cuando $\alpha > 1<$ la expectativa existe y viene dada por $\frac{\alpha}{\alpha-1}\cdot m$ . Cuando $\alpha \le 1$ la expectativa no existe, o como decimos, es infinita, porque la integral que la define diverge al infinito. Podemos definir la Distribución del primer momento (ver el post ¿Cuándo utilizaríamos los tantiles y la mediana, en lugar de los cuantiles y la mediana? para algunas informaciones y referencias) como $$ E(M) = \int_m^M x f(x) \; dx = \frac{\alpha}{\alpha-1} \left( m - \frac{m^\alpha}{M^{\alpha-1}} \right) $$ (esto existe sin tener en cuenta si la expectativa misma existe). Cuando la expectativa existe ( $\alpha> 1$ ) podemos dividirlo por él para obtener la distribución del primer momento relativo, dada por $$ Er(M) = E(m)/E(\infty) = 1-(\frac{m}{M})^{\alpha-1} $$ Cuando $\alpha$ es sólo un poco mayor que uno, por lo que la expectativa "apenas existe", la integral que define la expectativa convergerá lentamente. Veamos el ejemplo con $m=1, \alpha=1.2$ . Trazamos entonces $Er(M)$ con la ayuda de R:

### Function for opening new plot file:
open_png  <-  function(filename) png(filename=filename,
                                     type="cairo-png")

library(actuar) # from CRAN
### Code for Pareto type I distribution:
# First plotting density and "graphical moments" using ideas from http://www.quantdec.com/envstats/notes/class_06/properties.htm   and used some times at cross validated

m  <-  1.0
alpha <- 1.2
# Expectation:
E   <-  m * (alpha/(alpha-1))
# upper limit for plots:
upper  <- qpareto1(0.99, alpha, m)   
#
open_png("first_moment_dist1.png")
Er  <- function(M, m, alpha) 1.0 - (m/M)^(alpha-1.0)
### Inverse relative first moment distribution function,  giving
#   what we may call "expectation quantiles":
Er_inv  <-   function(eq, m, alpha) m*exp(log(1.0-eq)/(1-alpha))     

plot(function(M) Er(M, m, alpha), from=1.0,  to=upper)
plot(function(M) ppareto1(M, alpha, m), from=1.0,  to=upper, add=TRUE,  col="red")
dev.off()

que produce este gráfico:

enter image description here

Por ejemplo, en este gráfico se puede leer que aproximadamente el 50% de la contribución de TIE a la expectativa procede de observaciones por encima de 40. Dado que la expectativa $\mu$ de esta distribución es 6, ¡eso es asombroso! (esta distribución no tiene varianza existente. Para ello necesitamos $\alpha > 2$ ).

La función Er_inv definida anteriormente es la distribución de primer momento relativo inverso, un análogo a la función cuantil. Tenemos:

> ### What this plot shows very clearly is that most of the contribution to the expectation come from the very extreme right tail!
# Example   
eq  <-  Er_inv(0.5, m, alpha)
ppareto1(eq, alpha, m)
eq

> > > [1] 0.984375
> [1] 32
> 

Esto demuestra que el 50% de las contribuciones a la expectativa provienen de la cola superior del 1,5% de la distribución. Por tanto, especialmente en muestras pequeñas en las que hay una alta probabilidad de que la cola extrema no esté representada, la media aritmética, aunque sigue siendo un estimador insesgado de la expectativa $\mu$ debe tener una distribución muy sesgada. Lo investigaremos mediante una simulación: En primer lugar, utilizaremos un tamaño de muestra $n=5$ .

set.seed(1234)
n  <-  5
N  <-  10000000  # Number of simulation replicas
means  <-  replicate(N,  mean(rpareto1(n, alpha, m) ))

> mean(means)
[1] 5.846645
> median(means)
[1] 2.658925
> min(means)
[1] 1.014836
> max(means)
[1] 633004.5
length(means[means <=100])
[1] 9970136

Para obtener un gráfico legible, sólo mostramos el histograma de la parte de la muestra con valores inferiores a 100, que es una parte muy grande de la muestra.

open_png("mean_sim_hist1.png")
hist(means[means<=100],  breaks=100, probability=TRUE)
dev.off()

enter image description here

La distribución de las medias aritméticas es muy sesgada,

> sum(means <= 6)/N
[1] 0.8596413
> 

casi el 86% de las medias empíricas son menores o iguales que la media teórica, la expectativa. Eso es lo que deberíamos esperar, ya que la mayor parte de la contribución a la media proviene de la cola superior extrema, que no está representada en la mayoría de las muestras .

Tenemos que volver a evaluar nuestra conclusión anterior. Mientras que la existencia de la media hace posible que los límites superiores sean difusos, vemos que cuando "la media apenas existe", lo que significa que la integral es lentamente convergente, no podemos ser tan difusos sobre los límites superiores . La convergencia lenta de las integrales tiene como consecuencia que podría ser mejor utilizar métodos que no supongan que la expectativa existe . Cuando la integral converge muy lentamente, en la práctica es como si no convergiera en absoluto. Los beneficios prácticos que se derivan de una integral convergente son una quimera en el caso de convergencia lenta. Esta es una forma de entender la conclusión de N N Talebs en http://fooledbyrandomness.com/complexityAugust-06.pdf

3 votos

Respuesta fantástica.

0 votos

"Una condición necesaria (pero no suficiente) para que esto se cumpla es $\lim_{x\rightarrow \infty} x f(x) =0 $. No creo que esto sea cierto. De hecho, es simple construir $\limsup xf(x)=\infty$. Tomemos $f(x)=g(x)/x$ donde $g$ es la interpolación lineal de $(x_1,1),(x_2,0),(x_3,2),(x_4,0),(x_5,3),(x_6,0)...$ y la distancia entre los $x_i$ consecutivos tiende asintóticamente a desaparecer lo suficientemente rápido."

0 votos

Lo siento por la necropost. Tal vez me esté perdiendo algo obvio, pero ¿por qué no es la gráfica de las medias de la muestra (cercana) a una distribución normal, como esperaríamos del TLC?

3voto

Aksakal Puntos 11351

La varianza es la medida de dispersión de la distribución de los valores de una variable aleatoria. No es la única medida de este tipo, por ejemplo, la desviación media absoluta es una de las alternativas.

La varianza infinita significa que los valores aleatorios no tienden a concentrarse alrededor de la media demasiado estrechamente. Podría significar que hay una probabilidad lo suficientemente grande de que el próximo número aleatorio esté muy lejos de la media.

Distribuciones como la Normal (Gaussiana) pueden producir números aleatorios muy lejos de la media, pero la probabilidad de tales eventos disminuye muy rápidamente con la magnitud de la desviación.

En ese sentido, cuando miras el gráfico de la distribución de Cauchy o una distribución Gaussiana (normal), no parecen muy diferentes visualmente. Sin embargo, si intentas calcular la varianza de la distribución de Cauchy, será infinita, mientras que la de la Gaussiana es finita. Así que la distribución normal es más ajustada alrededor de su media en comparación con la de Cauchy.

Por cierto, si hablas con matemáticos, insistirán en que la distribución de Cauchy no tiene una media bien definida, que es infinita. Esto suena ridículo para los físicos, que señalarían el hecho de que la distribución de Cauchy es simétrica, por lo tanto, está obligada a tener una media. En este caso, argumentarían que el problema está en tu definición de media, no en la distribución de Cauchy.

3 votos

¿Estás seguro acerca de los matemáticos y físicos? ¡Mi impresión es que los físicos pueden ser muy rigurosos acerca de tales cosas! ¡Mira mi respuesta, una convergencia lenta hace que un valor tenga poco valor! Además, ningún matemático diría que el Cauchy tiene media infinita, el límite adecuado que define la integral simplemente no existe, ya que diverge en ambas colas. Hablar de la expectativa siendo $\infty$ o $-\infty$ solo tiene sentido cuando la divergencia está en una cola solamente.

2 votos

@kjetilbhalvorsen, "ningún matemático diría que el Cauchy tiene una media infinita" - ese promedio no está bien definido es exactamente lo que me ha dicho mi profesor de estadísticas, mientras que mi asesor de física teórica se sorprendió de que siquiera hubiera una pregunta sobre la media, "por supuesto que es cero, y si no estás de acuerdo entonces hay algo mal con tu definición de media"

1 votos

¿Le preguntaste sobre su definición de la media?

3voto

user164061 Puntos 281

Una forma alternativa de verlo es a través de la función de cuantiles.

$$Q(F(x)) = x$$

Luego podemos calcular un momento o esperanza

$$E(T(x)) = \int_{-\infty}^\infty T(x) f(x) dx\\$$

alternativamente como (reemplazando $f(x)dx = dF):

$$E(T(x)) = \int_{0}^1 T(Q(F)) dF \\$$

Supongamos que queremos calcular el primer momento, entonces $T(x) = x$. En la imagen a continuación, esto corresponde al área entre F y la línea vertical en $x=0$ (donde el área en el lado izquierdo puede contarse como negativa cuando $T(x)<0$). El segundo momento correspondería al volumen que la misma área barre cuando se rota a lo largo de la línea en $x=0$ (con una diferencia de factor $\pi$).

Cauchy versus Normal

Las curvas en la imagen muestran cuánto contribuye cada cuantil en el cálculo.

Para la curva normal, hay muy pocos cuantiles con una gran contribución. Pero para la curva de Cauchy hay muchos más cuantiles con una gran contribución. Si la curva $T(Q(F))$ se acerca lo suficientemente rápido al infinito cuando que F se acerca a cero o uno, entonces el área puede ser infinita.

Este infinito puede no ser tan extraño ya que la propia distancia de la integrando (media) o distancia al cuadrado (varianza) pueden volverse infinitas. Solo es cuestión de cuánto peso, cuánto porcentaje de F, tienen esas colas infinitas.

En la suma/integración de la distancia desde cero (media) o distancia al cuadrado desde la media (varianza), un solo punto que está muy lejos tendrá más influencia en la distancia promedio (o distancia al cuadrado) que muchos puntos cercanos.

Por lo tanto, al movernos hacia el infinito, es posible que la densidad disminuya, pero la influencia en la suma de alguna cantidad (creciente), por ejemplo, distancia o distancia al cuadrado, no necesariamente cambia.

Si por cada cantidad de masa a alguna distancia $x$ hay la mitad o más masa a una distancia $\sqrt{2}x$, entonces llegarás a que la suma de la masa total $\sum \frac{1}{2^n}$ convergerá porque la contribución de la masa disminuye, pero la varianza se vuelve infinita ya que esa contribución no disminuye $\sum ((\sqrt{2}x)^n)^2 \frac{1}{2^n} \to \infty$

2voto

miki Puntos 76

La mayoría de las distribuciones que encuentres probablemente tengan varianza finita. Aquí hay un ejemplo discreto $X$ que tiene varianza infinita pero media finita:

Sea su función de masa de probabilidad $ p(k) = c/|k|^3$, para $k \in \mathbb{Z} \setminus\{0\}$, $p(0) = 0$, donde $c = (2\zeta(3))^{-1} := (2\sum_{k=1}^\infty 1/k^3)^{-1} < \infty$. En primer lugar porque $\mathbb{E} \mid X\mid < \infty$ tiene media finita. También tiene varianza infinita porque $2 \sum_{k=1}^\infty k^2 / |k|^3 = 2\sum_{k=1}^\infty k^{-1} = \infty.

Nota: $\zeta(x) :=\sum_{k=1}^\infty k^{-x}$ es la función zeta de Riemann. Hay muchos otros ejemplos, simplemente no tan agradables de escribir.

7 votos

Solo porque la distribución es simétrica (es decir, una función par), no necesariamente significa que la media sea $0$; la media puede no existir porque la suma/integral resulta ser de la forma $\infty - \infty$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X