28 votos

¿Por qué pedimos la convergencia *absoluta* de una serie para definir la media de una variable aleatoria discreta?

Si $X$ es una variable aleatoria discreta que puede tomar los valores $x_1, x_2, \dots $ y con función de masa de probabilidad $f_X$, entonces definimos su media por el número $$\sum x_i f_X(x_i) $$ (1) cuando la serie anterior es absolutamente convergente.

Esa es la definición del valor medio de una variable aleatoria discreta que he encontrado en mis libros (Introducción a la Teoría de la Estadística de Mood A., Probabilidad y Estadística de DeGroot M.).

Sé que si una serie es absolutamente convergente entonces es convergente, pero ¿por qué necesitamos que la serie (1) converja absolutamente, en lugar de simplemente pedir que converja? Estoy tomando mis cursos introductorios de probabilidad y hasta ahora no he encontrado una situación que nos obligue a restringirnos de esta manera.

Se agradecen cualquier comentario sobre el tema.

39voto

Arsh Puntos 375

Es porque si la serie es convergente pero no absolutamente convergente, puedes reorganizar la suma para obtener cualquier valor. Cualquier buena noción de "media" o "expectativa" no debería depender del ordenamiento de los $x_i$.

Por una razón más abstracta, nota que definimos la expectativa $E[X]$ de una variable aleatoria $X$ definida en un espacio de probabilidad $(\Omega, \mathcal{F}, P)$ como la integral de Lebesgue $\int_{\Omega} X dP$. Por definición de la integral de Lebesgue, esto solo está bien definido si el integrando es integrable absolutamente. Si aprendes más sobre teoría de la medida, también aprenderás por qué esta definición tiene sentido. Se hace para evitar situaciones extrañas como $\infty - \infty$ en la teoría.

14voto

Andy Puntos 21

Creo que cualquier explicación va a hacer referencia al hecho de que sin convergencia absoluta, el valor de una suma infinita o una integral impropia de Riemann depende del orden en el que se suman las "piezas". Eso solo puede satisfacerte, pero a mí no me satisfizo completamente.

La razón más específica que me satisfizo es que "sin convergencia absoluta, la ley de los grandes números falla". La razón intuitiva de esto es que cuando estás tomando promedios de muestras, en lugar de integrar $x f(x)$ de forma simétrica, lo estás integrando mediante integración de Monte Carlo, eligiendo ubicaciones al azar literalmente. Como consecuencia, si la integral de la media solo converge condicionalmente, entonces no hay garantía de que los promedios de las muestras tengan el mismo comportamiento a lo largo de diferentes secuencias de muestras, o incluso de que los promedios de las muestras converjan en absoluto.

Para ver esto en una computadora, intenta ejecutar un programa como este, que toma promedios de muestras sucesivas de la distribución de Cauchy estándar (que es simétrica alrededor de $0$, por lo que su media "sería cero si tuviera sentido").

n=1e4;
x=pi*(rand(1,n)-1/2);
y=cumsum(tan(x))./(1:n);
plot(1:n,y)

Este programa tal como está se ejecutará en Matlab u Octave, pero programas muy similares pueden ejecutarse en otro software con soporte para números aleatorios y graficación. Lo que verás son saltos bastante dramáticos en la media de la muestra que ocurren cuando una entrada de x se acerca demasiado a $\pi/2$ o $-\pi/2$, y que continúan ocurriendo incluso después de haber dibujado miles de muestras.

2voto

Acccumulation Puntos 13

Existe una distinción que debe hacerse en matemáticas entre características que son parte esencial de un objeto matemático, versus características que se utilizan de una manera más arbitraria simplemente como etiquetas para que podamos discutir los objetos.

Por ejemplo, si estamos codificando datos demográficos, y una de las variables es raza, codificar esos datos como un número entero requiere asignar números a las diferentes razas. El número que recibe una raza no es una característica esencial de la raza, sino simplemente un número arbitrario dado para hacer un seguimiento de ella. Sería bastante extraño si nuestro cálculo del valor promedio de alguna métrica sobre las diferentes razas diera una respuesta diferente dependiendo de cómo etiquetamos las razas.

De manera similar, el índice que asignamos a diferentes $x$ valores no es una parte esencial de los datos. Incluso si hay un orden "obvio", no es el único ordenamiento, y queremos que nuestra definición no dependa de elegir el orden correcto, o que haya un ordenamiento obvio. Considera el conjunto de números racionales. Este conjunto es contable, por lo que es posible llegar a una etiqueta de los números racionales por enteros, pero hay muchas maneras diferentes de hacerlo. Si dos personas usaran diferentes métodos para etiquetar los números racionales y obtuvieran números diferentes para la media, eso sería un problema.

El hecho de que la fórmula tenga $\Sigma$ en lugar de $\Sigma_{i=0}^{\infty}$ enfatiza esto: la media es un atributo de los eventos y sus probabilidades, no de ningún indice en particular. Podemos definir el operador $\Sigma$ sin referencia a un índice. La suma sobre un conjunto finito se puede definir fácilmente, y para un conjunto infinito $X$, podemos definir el límite de su suma como el número $L$ tal que para cualquier $\epsilon$ positivo, $X$ se puede dividir en un conjunto finito $H$ y un conjunto infinito $T$ tal que la suma sobre $H$ más la suma sobre cualquier subconjunto finito de $T$ esté dentro de $\epsilon$ de $L$. es decir,

$\Sigma X = L$ si $\forall \epsilon >0,\exists H,T:H \cup T = X, H \cap T= \emptyset, |H|<\infty, \forall S \subset T, |S| < \infty \rightarrow |\Sigma X + \Sigma S-L|<\epsilon$

Esta definición (a menos que haya cometido algún error) es equivalente a la "convergencia uniforme"; el término "uniforme" es un calificador que debemos agregar al definir sumas con respecto a un índice para que esa suma sea independiente del índice.

-5voto

BCLC Puntos 3223

Es una gran pregunta, pero desafortunadamente, voy a dar una respuesta de probabilidad avanzada/teoría de la medida que responde para variables aleatorias en general (El título original del OP en realidad trata sobre variables aleatorias. Fui yo quien lo editó a discreto). Sin embargo, realmente no puedo imaginar una respuesta elemental que consista en algo más que simplemente 'Porque' (o en tagalo/filipino 'Kasi'. Supongo que esto es más preciso porque en tagalo/filipino también hay una palabra 'dahil' para un tipo diferente de 'porque').

Los aficionados a la probabilidad elemental (incluido el OP, supongo) pueden ignorar esto, excepto posiblemente la 'parte final'. O tal vez los aficionados a la probabilidad elemental pueden intentar leer esto por encima e intentar tener una idea o algo en lugar de entender los detalles específicos:

Definir expectativas de variables aleatorias (o integrales de Lebesgue de funciones medibles) se define en pasos en la máquina estándar:

  1. Expectativa de variables aleatorias indicadoras
  2. Expectativa de variables aleatorias simples
  3. Expectativa de variables aleatorias no negativas
  4. Expectativa de variables aleatorias generales.

Después de 1 y 2, llegamos a 3. Sea $X$ una variable aleatoria. Aquí, podemos definir $E[X^{+}]$ y $E[X^{-}]$ para las variables aleatorias no negativas $X^{+}$ y $X^{-}$, donde $X^{+}$ y $X^{-}$ son algo así como, respectivamente, 'la parte no negativa de $X$' y el negativo de la 'parte no positiva de $X$' tal que $X = X^{+} - X^{-}$. Entonces, dado que $|X| = X^{+} + X^{-}$, podemos definir $E[|X|] := E[X^{+}] + E[X^{-}]$. (Espera, olvidé. Quizás no se define esto. Tal vez realmente se descompone por linealidad de la expectativa/integración...)

Y luego llegamos a 4:

$$E[X] := E[X^{+}] - E[X^{-}]$$

Ahora, esto se define para cualquiera de

  1. $X$ tal que $E[|X|] < \infty$ --> Aquí, decimos que $X$ es integrable en el sentido de Lebesgue.

  2. $X$ tal que $E[X^{+}] < \infty$ o $E[X^{-}] < \infty$ --> Aquí, decimos que la integral de Lebesgue de $X$ existe.

Aquí, la Condición 1 implica ($E[X^{+}] < \infty$ y $E[X^{-}] < \infty$, lo cual implica) la Condición 2 pero no recíprocamente. Supongo que, análogamente a los límites regulares en cálculo elemental, es como: $\lim x^2 = \infty$, entonces $\lim x^2$ 'existe' pero no es 'existente'. Mientras tanto, $\lim \frac1x = 0$, entonces $\lim \frac1x$ es 'existente'. Entonces, 'existente' es lo mismo que 'existe' habitualmente en cálculo elemental, pero 'existe' aquí es como incluir $\pm \infty$.

Finalmente, la mencionada 'última parte':

  1. De todos modos, creo que la mayoría de los textos sobre teoría de la medida o probabilidad avanzada considerarán específicamente aquellos que son integrables en el sentido de Lebesgue y no todos los que tienen una integral de Lebesgue que existe. En la wiki, dice 'Resulta que esta definición proporciona las propiedades deseables de la integral.' Supongo que esta afirmación se refiere a integrables en el sentido de Lebesgue.

Entonces, ahora surge la pregunta de por qué esos textos se refieren específicamente a variables aleatorias/funciones medibles integrables en el sentido de Lebesgue. Bueno, probablemente (jaja) hay algunas propiedades que cumplen los integrables en el sentido de Lebesgue que no cumplen todos los que tienen una integral de Lebesgue, pero supongo que es solo para evitar $\pm \infty$

  1. AlohaSine mencionó casos de $\infty - \infty$ en su respuesta, pero creo que esto no se aplica a aquellos cuya integral de Lebesgue existe:
  • Para $E[X^{+}] < \infty$ y $E[X^{-}] = \infty$, $E[X] = - \infty$

  • Para $E[X^{+}] = \infty$ y $E[X^{-}] < \infty$, $E[X] = \infty$

Espera, en realidad acabo de darme cuenta de que incluso para la probabilidad de nivel elemental, usamos este tipo de definiciones como el paradoxo de San Petersburgo: $E[X]$ realmente no 'existe' en el sentido de que $E[|X|] = \infty$, pero tenemos que $E[X]$ '$=\infty$' bajo la idea de que $E[|X|] = \infty$ porque $E[X^{+}] = \infty$ mientras que $E[X^{-}] < \infty$ (específicamente $E[X^{-}] =0 $) según creo.

  1. hay muchas cosas en los comentarios y respuestas sobre reordenamiento en la convergencia condicional. No estoy tan familiarizado con esto aparte de wiki, pero creo que esto (explícitamente) explica solo el caso de variables aleatorias discretas y no para variables aleatorias en general (siempre que sus expectativas existan...o sean 'existentes')

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X