¿Cuál es la diferencia entre varianza finita e infinita? Mis conocimientos de estadística son más bien básicos; Wikipedia / Google no fueron de mucha ayuda en este caso.
Una respuesta fantástica.
¿Cuál es la diferencia entre varianza finita e infinita? Mis conocimientos de estadística son más bien básicos; Wikipedia / Google no fueron de mucha ayuda en este caso.
$\DeclareMathOperator{\E}{E} \DeclareMathOperator{\var}{var}$ ¿Qué significa que una variable aleatoria tenga "varianza infinita"? ¿Qué significa que una variable aleatoria tenga una expectativa infinita? La explicación en ambos casos es bastante similar, así que empecemos con el caso de la expectativa, y después con el de la varianza.
Dejemos que $X$ sea una variable aleatoria continua (RV) (nuestras conclusiones serán válidas de forma más general, para el caso discreto, sustituir integral por suma). Para simplificar la exposición, supongamos $X \ge 0$ .
Su expectativa está definida por la integral $$ \E X = \int_0^\infty x f(x) \, dx $$ cuando esa integral existe!, es decir, es finita. Si no, decimos que la expectativa no existe. Eso es una integral impropia, y por definición es $$ \int_0^\infty x f(x) \, dx = \lim_{a \rightarrow \infty} \int_0^a x f(x) \, dx $$ Para que ese límite sea finito, la contribución de la cola debe desaparecer, es decir, debemos tener $$ \lim_{a \rightarrow \infty} \int_a^\infty x f(x) \, dx =0 $$ Una condición necesaria (pero no suficiente) para que esto sea así es $\lim_{x\rightarrow \infty} x f(x) =0$ . Lo que dice la condición mostrada arriba, es que, el la contribución a la expectativa de la cola (derecha) debe ser desvanecida . Si no es así, la expectativa está dominada por las contribuciones de valores realizados arbitrariamente grandes . En la práctica, eso significará que las medias empíricas serán muy inestables, porque estará dominado por los infrecuentes valores muy grandes realizados . Y tenga en cuenta que esta inestabilidad de las medias muestrales no desaparecerá con muestras grandes, ¡es una parte integrada del modelo!
En muchas situaciones, eso parece poco realista. Digamos que un modelo de seguro (de vida), por lo que $X$ modela alguna vida (humana). Sabemos que, por ejemplo $X > 1000$ no se produce, pero en la práctica utilizamos modelos sin límite superior. La razón es clara: No duro Si se conoce el límite superior, si una persona tiene (digamos) 110 años, no hay razón para que no pueda vivir un año más. Así que un modelo con un límite superior duro parece artificial. Aun así, no queremos que la cola superior extrema tenga mucha influencia.
Si $X$ tiene una expectativa finita, entonces podemos cambiar el modelo para tener un límite superior duro sin influir indebidamente en el modelo. En situaciones con un límite superior difuso eso parece bueno. Si el modelo tiene una expectativa infinita, entonces, ¡cualquier límite superior duro que introduzcamos en el modelo tendrá consecuencias dramáticas! Esa es la verdadera importancia de la expectativa infinita.
Con una expectativa finita, podemos ser difusos en cuanto a los límites superiores. Con una expectativa infinita, no podemos .
Ahora bien, lo mismo puede decirse de la varianza infinita, mutatis mutandi.
Para que quede más claro, veamos un ejemplo. Para el ejemplo utilizamos la distribución de Pareto, implementada en el paquete R (en CRAN) actuar como pareto1--- distribución de Pareto de un solo parámetro también conocida como distribución de Pareto tipo 1. Tiene una función de densidad de probabilidad dada por $$ f(x) = \begin{cases} \frac{\alpha m^\alpha}{x^{\alpha+1}} &, x\ge m \\ 0 &, x<m \end{cases} $$ para algunos parámetros $m>0, \alpha>0$ . Cuando $\alpha > 1<$ la expectativa existe y viene dada por $\frac{\alpha}{\alpha-1}\cdot m$ . Cuando $\alpha \le 1$ la expectativa no existe, o como decimos, es infinita, porque la integral que la define diverge al infinito. Podemos definir la Distribución del primer momento (ver el post ¿Cuándo utilizaríamos los tantiles y la mediana, en lugar de los cuantiles y la mediana? para algunas informaciones y referencias) como $$ E(M) = \int_m^M x f(x) \; dx = \frac{\alpha}{\alpha-1} \left( m - \frac{m^\alpha}{M^{\alpha-1}} \right) $$ (esto existe sin tener en cuenta si la expectativa misma existe). Cuando la expectativa existe ( $\alpha> 1$ ) podemos dividirlo por él para obtener la distribución del primer momento relativo, dada por $$ Er(M) = E(m)/E(\infty) = 1-(\frac{m}{M})^{\alpha-1} $$ Cuando $\alpha$ es sólo un poco mayor que uno, por lo que la expectativa "apenas existe", la integral que define la expectativa convergerá lentamente. Veamos el ejemplo con $m=1, \alpha=1.2$ . Trazamos entonces $Er(M)$ con la ayuda de R:
### Function for opening new plot file:
open_png <- function(filename) png(filename=filename,
type="cairo-png")
library(actuar) # from CRAN
### Code for Pareto type I distribution:
# First plotting density and "graphical moments" using ideas from http://www.quantdec.com/envstats/notes/class_06/properties.htm and used some times at cross validated
m <- 1.0
alpha <- 1.2
# Expectation:
E <- m * (alpha/(alpha-1))
# upper limit for plots:
upper <- qpareto1(0.99, alpha, m)
#
open_png("first_moment_dist1.png")
Er <- function(M, m, alpha) 1.0 - (m/M)^(alpha-1.0)
### Inverse relative first moment distribution function, giving
# what we may call "expectation quantiles":
Er_inv <- function(eq, m, alpha) m*exp(log(1.0-eq)/(1-alpha))
plot(function(M) Er(M, m, alpha), from=1.0, to=upper)
plot(function(M) ppareto1(M, alpha, m), from=1.0, to=upper, add=TRUE, col="red")
dev.off()
que produce este gráfico:
Por ejemplo, en este gráfico se puede leer que aproximadamente el 50% de la contribución de TIE a la expectativa procede de observaciones por encima de 40. Dado que la expectativa $\mu$ de esta distribución es 6, ¡eso es asombroso! (esta distribución no tiene varianza existente. Para ello necesitamos $\alpha > 2$ ).
La función Er_inv definida anteriormente es la distribución de primer momento relativo inverso, un análogo a la función cuantil. Tenemos:
> ### What this plot shows very clearly is that most of the contribution to the expectation come from the very extreme right tail!
# Example
eq <- Er_inv(0.5, m, alpha)
ppareto1(eq, alpha, m)
eq
> > > [1] 0.984375
> [1] 32
>
Esto demuestra que el 50% de las contribuciones a la expectativa provienen de la cola superior del 1,5% de la distribución. Por tanto, especialmente en muestras pequeñas en las que hay una alta probabilidad de que la cola extrema no esté representada, la media aritmética, aunque sigue siendo un estimador insesgado de la expectativa $\mu$ debe tener una distribución muy sesgada. Lo investigaremos mediante una simulación: En primer lugar, utilizaremos un tamaño de muestra $n=5$ .
set.seed(1234)
n <- 5
N <- 10000000 # Number of simulation replicas
means <- replicate(N, mean(rpareto1(n, alpha, m) ))
> mean(means)
[1] 5.846645
> median(means)
[1] 2.658925
> min(means)
[1] 1.014836
> max(means)
[1] 633004.5
length(means[means <=100])
[1] 9970136
Para obtener un gráfico legible, sólo mostramos el histograma de la parte de la muestra con valores inferiores a 100, que es una parte muy grande de la muestra.
open_png("mean_sim_hist1.png")
hist(means[means<=100], breaks=100, probability=TRUE)
dev.off()
La distribución de las medias aritméticas es muy sesgada,
> sum(means <= 6)/N
[1] 0.8596413
>
casi el 86% de las medias empíricas son menores o iguales que la media teórica, la expectativa. Eso es lo que deberíamos esperar, ya que la mayor parte de la contribución a la media proviene de la cola superior extrema, que no está representada en la mayoría de las muestras .
Tenemos que volver a evaluar nuestra conclusión anterior. Mientras que la existencia de la media hace posible que los límites superiores sean difusos, vemos que cuando "la media apenas existe", lo que significa que la integral es lentamente convergente, no podemos ser tan difusos sobre los límites superiores . La convergencia lenta de las integrales tiene como consecuencia que podría ser mejor utilizar métodos que no supongan que la expectativa existe . Cuando la integral converge muy lentamente, en la práctica es como si no convergiera en absoluto. Los beneficios prácticos que se derivan de una integral convergente son una quimera en el caso de convergencia lenta. Esta es una forma de entender la conclusión de N N Talebs en http://fooledbyrandomness.com/complexityAugust-06.pdf
La varianza es la medida de dispersión de la distribución de valores de una variable aleatoria. No es la única medida de este tipo, por ejemplo, la desviación media absoluta es una de las alternativas.
La varianza infinita significa que los valores aleatorios no tienden a concentrarse alrededor de la media con demasiada fuerza . Podría significar que hay lo suficientemente grande probabilidad de que el siguiente número aleatorio sea muy lejos de la media.
Las distribuciones como la Normal (Gaussiana) pueden producir números aleatorios muy alejados de la media, pero la probabilidad de tales eventos disminuye muy rápidamente con la magnitud de la desviación.
En ese sentido, cuando se observa el gráfico de la distribución de Cauchy o de una distribución gaussiana (normal), no parecen muy diferentes visualmente. Sin embargo, si intentas calcular la varianza de la distribución de Cauchy será infinita, mientras que la de Gauss es finita. Por tanto, la distribución normal es más ajustada en torno a su media en comparación con la de Cauchy.
Por cierto, si hablas con los matemáticos, insistirán en que la distribución de Cauchy no tiene una media bien definida, que es infinita. Esto suena ridículo para los físicos que señalan el hecho de que Cauchy es simétrica, por lo tanto, está obligado a tener una media. En este caso, argumentarían que el problema está en tu definición de media, no en la distribución de Cauchy.
¿Está usted seguro de que los matemáticos y los físicos? Mi impresión es que los físicos pueden ser muy rigurosos en estas cosas. Vea mi respuesta, ¡la convergencia lenta hace que un valor tenga poco valor! Además, ningún matemático diría que la Cauchy tiene media infinita, el límite propio que define la integral simplemente no existe, ya que diverge en ambas colas. Hablando de que la expectativa es $\infty$ o $-\infty$ sólo tiene sentido cuando la divergencia está en una sola cola.
@kjetilbhalvorsen, "ningún matemático diría que el Cauchy tiene una media infinita" - que la media no está bien definida es exactamente lo que me ha dicho mi profesor de estadística, mientras que mi asesor de Physcis teórica se sorprendió de que incluso hay una pregunta acerca de la media, "por supuesto que es cero, y si usted no está de acuerdo entonces hay algo mal con su definición de la media"
Una forma alternativa de verlo es mediante la función cuantil.
$$Q(F(x)) = x$$
Entonces podemos calcular un momento o expectativa
$$E(T(x)) = \int_{-\infty}^\infty T(x) f(x) dx\\$$
alternativamente como (sustituyendo $f(x)dx = dF$ ):
$$E(T(x)) = \int_{0}^1 T(Q(F)) dF \\$$
Digamos que deseamos calcular el primer momento entonces $T(x) = x$ . En la imagen de abajo esto corresponde al área entre F y el vertical línea en $x=0$ (donde el área del lado izquierdo puede contar como negativa cuando $T(x)<0$ ). El segundo momento correspondería al volumen que barre la misma superficie cuando se gira a lo largo de la línea en $x=0$ (con un factor $\pi$ diferencia).
Las curvas de la imagen muestran cuánto contribuye cada cuantil en el cálculo.
En el caso de la curva normal, sólo hay muy pocos cuantiles con una gran contribución. Pero para la curva de Cauchy hay muchos más cuantiles con una gran contribución. Si la curva $T(Q(F))$ va lo suficientemente rápido hasta el infinito cuando F se acerca a cero o a uno, entonces el área puede ser infinita.
Este infinito puede no ser tan extraño ya que el propio integrando distancia (media) o distancia al cuadrado (varianza) puede llegar a ser infinito. Es sólo una cuestión de cuánto peso qué porcentaje de F tienen esas colas infinitas.
En la suma/integración de la distancia a cero (media) o de la distancia al cuadrado de la media (varianza), un solo punto muy alejado tendrá más influencia en la distancia media (o en la distancia al cuadrado) que muchos puntos cercanos.
Así, cuando nos movemos hacia el infinito la densidad puede disminuir, pero la influencia en la suma de alguna cantidad (creciente), por ejemplo, la distancia o la distancia al cuadrado no cambia necesariamente.
Si para cada cantidad de masa a cierta distancia $x$ hay la mitad o más de masa a distancia $\sqrt{2}x$ entonces se obtendrá que la suma de la masa total $\sum \frac{1}{2^n}$ convergerá porque la contribución de la masa disminuye, pero la varianza se vuelve infinita ya que esa contribución no disminuye $\sum ((\sqrt{2}x)^n)^2 \frac{1}{2^n} \to \infty$
La mayoría de las distribuciones que encuentres probablemente tengan una varianza finita. He aquí un ejemplo discreto $X$ que tiene una varianza infinita pero una media finita:
Sea su función de masa de probabilidad $ p(k) = c/|k|^3$ , para $k \in \mathbb{Z} \setminus\{0\}$ , $p(0) = 0$ , donde $c = (2\zeta(3))^{-1} := (2\sum_{k=1}^\infty 1/k^3)^{-1} < \infty$ . En primer lugar porque $\mathbb{E} \mid X\mid < \infty$ tiene una media finita. También tiene una varianza infinita porque $2 \sum_{k=1}^\infty k^2 / |k|^3 = 2\sum_{k=1}^\infty k^{-1} = \infty$ .
Nota: $\zeta(x) :=\sum_{k=1}^\infty k^{-x}$ es la función zeta de Riemann. Hay muchos otros ejemplos, pero no son tan agradables de escribir.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.
12 votos
Las distribuciones con varianza infinita son cola pesada Pero hay muchos valores atípicos, y pueden tener propiedades diferentes de las que uno está acostumbrado a ver. Por ejemplo, la media muestral de las muestras extraídas de un Cauchy tiene la misma distribución (Cauchy) que las muestras individuales. Esto es muy diferente de la creencia habitual de que la media de la muestra es un mejor "estimador" que cualquier muestra individual.
0 votos
¿Así que cola pesada con = varianza infinita?
4 votos
No, cola pesada no es lo mismo que tener una varianza infinita, o al menos, no en mi opinión. Sin embargo, no soy un estadístico, por lo que deberías esperar a una respuesta más autorizada de los usuarios de alto rango de este foro.
4 votos
La varianza infinita se produce cuando la integral (suma) que define la varianza de la población aumenta más allá de cualquier límite finito cuando se toma el límite. Algunos ejemplos de discusión aquí
2 votos
Creo que lo más importante es que la mayoría de los teoremas centrales del límite no se cumplen para una población así y, por lo tanto, algunos resultados comunes se derrumban.
1 votos
Punto importante: si la varianza de un población es infinito, pero la varianza de a muestra es finito, entonces cualquier estimación de la varianza o la desviación estándar de la población utilizando un estadístico muestral como $s^{2}$ o $s$ entonces $\frac{s}{\sqrt{n}}$ estará bastante mal orientado. Dado que muchos estadísticos de prueba se basan en una medida del efecto normalizada sobre un error estándar estimado del efecto, y dado que muchos IC se basan en una escala por un error estándar estimado, esto significa que la inferencia estadística sobre variables con varianza infinita estará probablemente bastante sesgada .
0 votos
Como la varianza finita es un requisito previo para el CLT, esto es relevante: stats.stackexchange.com/questions/283546/