9 votos

Intuición tras la desigualdad de Chebyshev

¿Hay alguna intuición detrás de la desigualdad de Chebyshev o es sólo pura matemática? Lo que me llama la atención es que cualquier variable aleatoria (tenga la distribución que tenga) se aplica a eso.

$$ \Pr(|X-\mu|\geq k\sigma) \leq \frac{1}{k^2}. $$

13voto

Dilip Sarwate Puntos 14967

La intuición es que si $g(x) \geq h(x) ~\forall x \in \mathbb R$ entonces $E[g(X)] \geq E[h(X)]$ para cualquier variable aleatoria $X$ (para las que existen estas expectativas). Esto es lo que intuitivamente esperar: ya que $g(X)$ es siempre al menos tan grande como $h(X)$ el valor medio de $g(X)$ debe ser al menos tan grande como el valor medio de $h(X)$ .

Aplique ahora esta intuición a las funciones $$g(x) = (x-\mu)^2 ~ \text{and}~ h(x)= \begin{cases}a^2,& |x - \mu| \geq a,\\0, & |x-\mu|< a,\end{cases}$$ donde $a > 0$ y donde $X$ es una variable aleatoria con media finita $\mu$ y varianza finita $\sigma^2$ . Esto da $$E[(X-\mu)^2] = \sigma^2 \geq E[h(X)] = a^2P\{|X-\mu|\geq a\}.$$ Por último, establezca $a = k\sigma$ para obtener la desigualdad de Chebyshev.


Alternativamente, considere la varianza $\sigma^2$ como representante del momento de inercia de la masa de probabilidad en torno al centro de masa (también denominada media) $\mu$ ). La masa de probabilidad total $M$ en la región $(-\infty, \mu-k\sigma] \cup [\mu+k\sigma, \infty)$ que está muy lejos de la media $\mu$ contribuye un total de como mínimo $M\cdot (k\sigma)^2$ a la suma o integral para $\sigma^2 = E[(X-\mu)^2]$ y así, como todo lo demás en esa suma o integral es no negativo, debe ser que $$\sigma^2 \geq M\cdot (k\sigma)^2 \implies M = P\{|X-\mu| \geq k\sigma\} \leq \frac{1}{k^2}.$$

Obsérvese que para un valor dado de $k$ , igualdad se cumplirá en la desigualdad de Chebyshev cuando haya hay masas puntuales iguales de $\frac{1}{2k^2}$ en $\mu \pm k\sigma$ y una masa puntual de $1 - \frac{1}{k^2}$ en $\mu$ . La masa central no contribuye en nada a la cálculo de la varianza/momento de inercia-sobre-el-centro-de-masa mientras que las masas contribuyen cada una $\left(\frac{1}{2k^2}\right)(k\sigma)^2 = \frac{\sigma^2}{2}$ para sumar la varianza $\sigma^2$

4voto

hHhh Puntos 711

Las variables cuadradas integrables no son variables aleatorias cualesquiera. De hecho, ¡son bastante regulares!

Una vez que sabes que tu variable tiene una varianza, es natural que la distancia a la media de tu variable pueda ser controlada en probabilidad por esta varianza. La desigualdad de Chebyshev es probablemente la forma más sencilla de conseguirlo.

4voto

dsaxton Puntos 903

Es útil ver la desigualdad de Chebyshev más como una aplicación de la desigualdad de Markov que para una variable aleatoria no negativa $X$ y $\alpha > 0$ viene dado por,

$$ \begin{align} P(X \geq \alpha) \leq \frac{\text{E}(X)}{\alpha} . \end{align} $$

(Obsérvese cómo llegamos a la desigualdad de Chebyshev aplicando la desigualdad de Markov al suceso $\{(X - \mu)^2 \geq k^2 \sigma^2 \}$ que equivale a $\{|X - \mu| \geq k \sigma \}$ y, por tanto, tiene la misma probabilidad).

Ahora bien, la intuición que subyace a la desigualdad de Markov es que existe una relación implícita entre probabilidad y expectativa, y que para variables aleatorias no negativas conocer el valor esperado impone ciertas restricciones al comportamiento de la cola. Es decir, si uno ya sabe cómo de grande $X$ es en promedio, entonces la probabilidad de valores grandes debe ser controlada o $\text{E}(X)$ será "arrastrado" hacia un valor mayor.

Para ilustrarlo, supongamos que $\text{E}(X) = 1$ . ¿Es posible que $P(X \geq 2) > 1/2$ ? Obviamente no, porque entonces $\text{E}(X) > 1$ y nos hemos contradicho.

2voto

max Puntos 172

Para mí significa:

Cuanto más se aleje la variable aleatoria de la media, más rara será. k da el número de desviaciones típicas (si se toma como número natural) y la probabilidad estará automáticamente limitada por $1/k^2$ .

Mi intuición de por qué ésta es una afirmación significativa para todas las variables aleatorias es la siguiente: La medida de todo el espacio es limitada, a saber = 1. No se puede llenar todo el espacio en los reales con valores positivos (la medida será inf), por lo que la distribución debe desaparecer en los lados.

1voto

Hurkyl Puntos 57397

Encuentra la distribución del peor caso, y todo lo demás debe tener una probabilidad menor.

Puesto que lo único que importa es si un punto está dentro o fuera de la bola de radio $k \sigma$ centrado en $\mu$ debemos asegurarnos de que toda la masa de probabilidad dentro de la bola está a $\mu$ y todo lo que está fuera de la bola está exactamente en el límite $|x - \mu| = k \sigma$ Al hacerlo, se minimizaría su contribución a la desviación típica, lo que nos permitiría colocar tanta masa fuera de la bola como pudiéramos.

es decir, debemos considerar la distribución

$$ P(X = x) = \begin{cases} 1 - \rho & x = \mu \\ \rho/2 & x = \mu \pm k \sigma \\ 0 & \text{otherwise} \end{cases} $$

donde $\rho = P(|X-\mu| \geq k \sigma)$ .

Esto ha supuesto $\mu$ y desviación típica $k \sigma \sqrt{\rho}$ y, por tanto $\rho = 1/k^2$ .

(Para que esto fuera riguroso habría que demostrar que se trata del peor de los casos. Por supuesto, una vez que sepamos cuál debe ser la respuesta, puede ser más fácil demostrarlo más directamente)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X