37 votos

¿Un ejemplo de la versión de la cara de la desigualdad de Chebyshev existen?

Estoy interesado en los siguientes uno de los lados de la desigualdad de Chebyshev:

$$ \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. $$

Básicamente, si usted sabe que la población media y la varianza, se puede calcular la cota superior de la probabilidad de observar un valor determinado. (Esa fue mi entender, al menos.)

Sin embargo, me gustaría usar la media muestral y la varianza de la muestra en lugar de la actual población media y la varianza.

Estoy pensando que ya que esto introduce más incertidumbre, el límite superior podría aumentar.

Hay una desigualdad análoga a la anterior, pero que utiliza la media muestral y la varianza?

Edit: La "muestra" analógica de la Desigualdad de Chebyshev (no a una cara), se ha trabajado. La página de la Wikipedia, tiene algunos detalles. Sin embargo, no estoy seguro de cómo iba a traducir a la unilateral caso tengo encima.

30voto

giulio Puntos 166

Sí, se puede conseguir un resultado análogo utilizando la media muestral y la varianza, tal vez, un par leve sorpresas emergentes en el proceso.

En primer lugar, tenemos que refinar la pregunta enunciado sólo un poco, y se establecen algunos supuestos. Es importante destacar que, debe quedar claro que no podemos esperar para reemplazar la varianza de la población con el ejemplo de la varianza en el lado derecho, ya que éste último es al azar! Así, podemos enfocar nuestra atención en el equivalente a la desigualdad $$ \mathbb P\left( X - \mathbb E X \geq t \sigma \right) \leq \frac{1}{1+t^2} \>. $$ En caso de que no está claro que estos son equivalentes, tenga en cuenta que hemos sustituido a los $t$ $t \sigma$ en la desigualdad original sin ninguna pérdida de generalidad.

Segundo, supongamos que tenemos una muestra aleatoria de $X_1,\ldots,X_n$ y estamos interesados en un límite superior para la cantidad análoga $ \mathbb P(X_1 - \bar X \geq t S) $, donde $\bar$ X es la media muestral y la $S$ es la desviación estándar de la muestra.

Un medio paso hacia adelante

Tenga en cuenta que ya por la aplicación de la original de una cara de la desigualdad de Chebyshev para $X_1 - \bar X$, obtenemos que $$ \mathbb P( X_1 - \bar X \geq t\sigma ) \leq \frac{1}{1 + \frac{n}{n-1}t^2} $$ donde $\sigma^2 = \mathrm{Var}(X_1)$, que es menor que el lado derecho de la versión original. Esto tiene sentido! Cualquier particular, la realización de una variable aleatoria a partir de una muestra tienden a ser (un poco) más cerca de la media de la muestra a la que contribuye que la media de población. Como veremos a continuación, vamos a llegar a reemplazar $\sigma$ $S$ bajo aún más en suposiciones generales.

Un ejemplo de la versión de un solo lado de Chebyshev

Reclamo: Deja de $X_1,\ldots,X_n$ ser una muestra aleatoria tal que $\mathbb P(S = 0) = 0$. Entonces, $$ \mathbb P(X_1 - \bar X \geq t S) \leq \frac{1}{1 + \frac{n}{n-1} t^2}\>. $$ En particular, la muestra la versión de la envolvente es más estrecha que la población original versión.

Nota: Nosotros no asumir que el $X_i$ finito media o varianza!

Prueba. La idea es adaptar la prueba de la original de una cara de la desigualdad de Chebyshev y emplear la simetría en el proceso. En primer lugar, establecer $Y_i = X_i - \bar X$ por conveniencia notacional. A continuación, se observa que la $$ \mathbb P( Y_1 \geq t S ) = \frac{1}{n} \sum_{i=1}^n \mathbb P( Y_i \geq t S ) = \mathbb E \frac{1}{n} \sum_{i=1}^n \mathbf 1_{(Y_i \geq t, S)} \>. $$

Ahora, para cualquier $c > 0$, $\{S > 0\}$, $$\newcommand{I}[1]{\mathbf{1}_{(#1)}} \I{Y_i \geq t S} = \I{Y_i + t c S \geq t S (1+c)} \leq \I{(Y_i + t c S)^2 \geq t^2 (1+c)^2 S^2} \leq \frac{(Y_i + t c S)^2}{t^2(1+c)^2 S^2}\>. $$

A continuación, $$ \frac{1}{n} \sum_i \I{Y_i \geq t S} \leq \frac{1}{n} \sum_i \frac{(Y_i + t c S)^2}{t^2(1+c)^2 S^2} = \frac{(n-1)S^2 + n t^2 c^2 S^2}{n^2 (1+c)^2 S^2} = \frac{(n-1) + n t^2 c^2}{n^2 (1+c)^2} \>, $$ desde $\bar Y = 0$ y $\sum_i Y_i^2 = (n-1)S^2$.

El lado derecho es una constante (!), así que tomando las expectativas en ambos lados de los rendimientos, $$ \mathbb P(X_1 - \bar X \geq t S) \leq \frac{(n-1) + n t^2 c^2}{n^2 (1+c)^2} \>. $$ Finalmente, la minimización de más de $c$ produce $c = \frac{n-1}{n^2}$, que después de un poco de álgebra se establece el resultado.

Que molestos condiciones técnicas

Tenga en cuenta que hemos tenido que asumir $\mathbb P(S = 0) = 0$ en el fin de ser capaz de dividir $S^2$ en el análisis. Esto no es ningún problema para absolutamente continuas distribuciones, pero plantea un inconveniente para discretas. Para una distribución discreta, hay una cierta probabilidad de que todas las observaciones son iguales, en cuyo caso $0 = Y_i = t S = 0$ para todo $i$ e $t > 0$.

Podemos sacudirnos de nuestra manera de salir por la configuración de $q = \mathbb P(S = 0)$. A continuación, una cuidadosa contabilidad del argumento muestra que todo va a través de prácticamente sin cambios, y tenemos

Corolario 1. Para el caso $q = \mathbb P(S = 0) > 0$, tenemos $$ \mathbb P(X_1 - \bar X \geq t S) \leq (1-q) \frac{1}{1 + \frac{n}{n-1} t^2} + p \>. $$

Prueba. Se dividen en los eventos $\{S > 0\}$ y $\{S = 0\}$. La prueba anterior es válido para $\{S > 0\}$ y en el caso de que $\{S = 0\}$ es trivial.

Un poco de limpiador de la desigualdad de resultados, si reemplazamos la nonstrict la desigualdad en la probabilidad de instrucción con una versión estricta.

Corolario 2. Deje que $q = \mathbb P(S = 0)$ (posiblemente cero). Entonces, $$ \mathbb P(X_1 - \bar X > t S) \leq (1-q) \frac{1}{1 + \frac{n}{n-1} t^2} \>. $$

Comentario Final: La versión de muestra de la desigualdad no requiere de supuestos en $X$ (aparte de que no se casi seguramente constante en el nonstrict desigualdad caso, que la versión original también tácitamente asume), en esencia, porque la muestra de la media y de la muestra varianza siempre existen si o no su población análogos de hacer.

18voto

Jeff Bauer Puntos 236

Esto es sólo un complemento a @cardenal 's ingeniosa respuesta. Samuelson Desigualdad, se establece que, para una muestra de tamaño $n$, cuando tenemos al menos tres valores distintos de los di cuenta de $x_i$'s, se tiene que $$x_i-\bar x < s\sqrt{n-1},\;\; i=1,...n$$ donde $s$ es calculado sin la corrección del sesgo, $s= \left (\frac 1n\sum_{i=1}^n(x_i-\bar x)^2\right)^{1/2}$.

Luego, usando la notación de Cardenal de la respuesta que se puede afirmar que

$$\mathbb P\left(X_1-\bar X \ge S\sqrt{n-1}\right) =0 \;\;.s. \qquad [1]$$

Desde que requieren, tres valores distintos, tendremos $S\neq 0$ por supuesto. Para la configuración de $t=\sqrt{n-1}$ en el Cardenal de la Desigualdad (la versión inicial) obtenemos

$$\mathbb P\left (X_1 - \bar X \geq S\sqrt{n-1}\right) \leq \frac{1}{1 + n}, \;\; \qquad [2]$$

Eq. $[2]$ es, por supuesto, compatible con eq. $[1]$. La combinación de los dos nos dice que el Cardenal de la Desigualdad es útil como un probabilística de la declaración de $0< t < \sqrt{n-1}$.

Si el Cardenal de la Desigualdad requiere $S$ a se calcula de corrección de sesgo (llamar a este $\tilde S$) entonces las ecuaciones son

$$\mathbb P\left(X_1-\bar X \ge \tilde S\frac{n-1}{\sqrt{n}}\right) =0 \;\;.s. \qquad [1a]$$

y elegimos $ t= \frac{n-1}{\sqrt{n}}$ para obtener a través del Cardenal Desigualdad

$$\mathbb P\left (X_1 - \bar X \geq \tilde S\frac{n-1}{\sqrt{n}}\right) \leq \frac{1}{ n}, \;\; \qquad [2a]$$ y el probabilísticamente intervalo significativo para $t$ es $0< t < \frac{n-1}{\sqrt{n}}.$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X