Tu confusión parece surgir al confundir las variables aleatorias con sus distribuciones.
Para "desaprender" esta confusión, puede ser útil dar un par de pasos atrás, vaciar la mente por un momento, olvidarse de cualquier formalismo extravagante como los espacios de probabilidad y las álgebras sigma (si te sirve de ayuda, haz como si estuvieras en la escuela primaria y nunca hubieras oído hablar de ninguna de esas cosas) y simplemente pensar en lo que representa fundamentalmente una variable aleatoria: un número de cuyo valor no estamos seguros .
Por ejemplo, digamos que tengo un dado de seis caras en la mano. (De hecho, tengo una bolsa entera de ellos.) Todavía no lo he tirado, pero estoy a punto de hacerlo, y decido llamar a el número que aún no he rodado en ese troquel con el nombre de " $X$ ".
¿Qué puedo decir de esto? $X$ , sin ¿Realmente lanzar el dado y determinar su valor? Bueno, puedo decir que su valor no será $7$ o $-1$ o $\frac12$ . De hecho, puedo decir con seguridad que va a ser un número entero entre $1$ y $6$ , inclusive, porque esos son los únicos números marcados en el dado. Y como he comprado esta bolsa de dados a un fabricante de confianza, puedo estar bastante seguro de que cuando lance el dado y determine qué número $X$ en realidad, es igualmente probable que sea cualquiera de esos seis valores posibles, o lo más cercano a eso que puedo determinar.
En otras palabras, mi $X$ es una variable aleatoria de valor entero distribuida uniformemente sobre el conjunto $\{1,2,3,4,5,6\}$ .
De acuerdo, pero seguramente todo eso es obvio, así que ¿por qué sigo insistiendo en cosas tan triviales que seguramente ya sabes? Es porque quiero hacer otro punto, que también es trivial pero, al mismo tiempo, crucialmente importante: Puedo hacer cuentas con esto $X$ aunque todavía no conozca su valor.
Por ejemplo, puedo decidir sumar uno al número $X$ que tiraré en el dado, y llamaré a ese número por el nombre " $Q$ ". No sabré qué número es este $Q$ será, ya que no sé qué $X$ será hasta que haya tirado el dado, pero aún puedo decir que $Q$ será uno mayor que $X$ o en términos matemáticos, $Q = X+1$ .
Y esto $Q$ también sea una variable aleatoria, porque aún no conozco su valor; sólo sé que será uno mayor que $X$ . Y porque sé qué valores $X$ puede tomar, y la probabilidad de que tome cada uno de esos valores, también puedo determinar esas cosas para $Q$ . Y tú también puedes hacerlo, con bastante facilidad. No necesitarás ningún formalismo o cálculo sofisticado para darte cuenta de que $Q$ será un número entero entre $2$ y $7$ y que es igualmente probable (suponiendo que mi dado sea tan justo y equilibrado como creo) que tome cualquiera de esos valores.
¡Pero hay más! También podría decidir, por ejemplo, multiplicar el número $X$ que tiraré el dado por tres, y llamaré al resultado $R = 3X$ . Y esa es otra variable aleatoria, y estoy seguro de que puedes averiguar su distribución, también, sin tener que recurrir a ninguna integral o convolución o álgebra abstracta.
Y si realmente quisiera, podría incluso decidir tomar el número aún por determinar $X$ y a doblarla, hilarla y mutilarla dividirlo por dos, restarle uno y elevar al cuadrado el resultado. Y el número resultante $S = (\frac12 X - 1)^2$ es otra variable aleatoria; esta vez, no tendrá valores enteros ni estará distribuida uniformemente, pero aún así puedes calcular su distribución con bastante facilidad utilizando sólo lógica y aritmética elemental.
Bien, entonces puedo definir nuevas variables aleatorias introduciendo mi tirada desconocida $X$ en varias ecuaciones. ¿Y qué? Bueno, ¿recuerdas cuando dije que tenía una bolsa entera de dados? Permítanme agarrar otro, y llamar al número que voy a rodar en que morir por el nombre " $Y$ ".
Esos dos dados que he cogido de la bolsa son prácticamente idénticos - si los cambias cuando no estoy mirando, no podría decirlo - así que puedo asumir con bastante seguridad que esto $Y$ también tendrá la misma distribución que $X$ . Pero lo que realmente quiero hacer es tira los dos dados y cuenta el número total de pepitas en cada uno de ellos . Y ese número total de pips, que también es una variable aleatoria ya que aún no lo conozco llamaré a " $T$ ".
¿Cómo de grande será este número $T$ ¿ser? Bueno, si $X$ es el número de pepitas que sacaré en el primer dado, y $Y$ es el número de pepitas que sacaré en el segundo dado, entonces $T$ será claramente su suma, es decir $T = X+Y$ . Y puedo decir que, desde $X$ y $Y$ están entre uno y seis, $T$ debe ser al menos dos y como máximo doce. Y como $X$ y $Y$ son ambos números enteros, $T$ claramente debe ser un número entero también.
Pero, ¿cuál es la probabilidad de que $T$ para tomar cada uno de sus posibles valores entre dos y doce? Definitivamente es no igualmente probable que tome cada uno de ellos - un poco de experimentación revelará que es un lote más difícil sacar un doce en un par de dados que sacar, por ejemplo, un siete.
Para calcularlo, denotemos la probabilidad de que salga el número $a$ en el primer dado (aquel cuyo resultado decidí llamar $X$ ) mediante la expresión $\Pr[X = a]$ . Del mismo modo, denotaré la probabilidad de que saque el número $b$ en el segundo dado por $\Pr[Y = b]$ . Por supuesto, si mis dados son perfectamente justos y equilibrados, entonces $\Pr[X = a] = \Pr[Y = b] = \frac16$ para cualquier $a$ y $b$ entre el uno y el seis, pero también podríamos considerar el caso más general en el que los dados podrían estar sesgados, y ser más propensos a sacar algunos números que otros.
Ahora bien, como las dos tiradas serán independientes (¡no pienso hacer trampa y ajustar una de ellas en función de la otra!), la probabilidad de que saque $a$ en el primer dado y $b$ en el segundo será simplemente el producto de esas probabilidades: $$\Pr[X = a \text{ and } Y = b] = \Pr[X = a] \Pr[Y = b].$$
(Obsérvese que la fórmula anterior sólo se mantiene para pares de variables aleatorias independientes; ciertamente no se mantendría si sustituimos $Y$ arriba con, digamos, $Q$ !)
Ahora, hay varios valores posibles de $X$ y $Y$ que podría producir el mismo total $T$ ; por ejemplo, $T = 4$ podría surgir igualmente de $X = 1$ y $Y = 3$ a partir de $X = 2$ y $Y = 2$ o incluso de $X = 3$ y $Y = 1$ . Pero si ya hubiera tirado el primer dado y conocía el valor de $X$ Entonces podría decir exactamente qué valor tendría que sacar en el segundo dado para alcanzar cualquier número total de pepitas.
En concreto, digamos que estamos interesados en la probabilidad de que $T = c$ para algún número $c$ . Ahora bien, si después de lanzar el primer dado sé que $X = a$ Entonces sólo pude obtener el total $T = c$ por el rodillo $Y = c - a$ en el segundo dado. Y por supuesto, ya sabemos, sin tirar ningún dado, que el a priori probabilidad de rodar $a$ en el primer dado y $c - a$ en el segundo dado es $$\Pr[X = a \text{ and } Y = c-a] = \Pr[X = a] \Pr[Y = c-a].$$
Pero, por supuesto, hay varias formas posibles de llegar al mismo total $c$ Dependiendo de lo que acabe sacando en el primer dado. Para obtener la probabilidad total $\Pr[T = c]$ de la rodadura $c$ en los dos dados, tengo que sumar las probabilidades de todas las formas diferentes en que podría sacar ese total. Por ejemplo, la probabilidad total de que saque un total de 4 puntos en los dos dados será: $$\Pr[T = 4] = \Pr[X = 1]\Pr[Y = 3] + \Pr[X = 2]\Pr[Y = 2] + \Pr[X = 3]\Pr[Y = 1] + \Pr[X = 4]\Pr[Y = 0] + \dots$$
Obsérvese que me he pasado un poco con la suma anterior: ciertamente $Y$ no puede ser $0$ ¡! Pero matemáticamente eso no es un problema; sólo tenemos que definir la probabilidad de eventos imposibles como $Y = 0$ (o $Y = 7$ o $Y = -1$ o $Y = \frac12$ ) como cero. Y así obtenemos una fórmula genérica para la distribución de la suma de dos tiradas de dados (o, en general, de dos variables aleatorias independientes de valor entero):
$$T = X + Y \implies \Pr[T = c] = \sum_{a \in \mathbb Z} \Pr[X = a]\Pr[Y = c - a].$$
Y podría perfectamente detener mi exposición aquí, ¡sin mencionar nunca la palabra "convolución"! Pero, por supuesto, si usted sabe lo que es una convolución discreta parece, puede que reconozcas uno en la fórmula anterior. Y esa es una forma bastante avanzada de enunciar el resultado elemental derivado anteriormente: el función de masa de probabilidad de la suma de dos variables aleatorias de valor entero es la convolución discreta de las funciones de masa de probabilidad de los sumandos.
Y por supuesto, sustituyendo la suma por una integral y la masa de probabilidad por densidad de probabilidad obtenemos un resultado análogo para variables aleatorias de distribución continua, también. Y estirando suficientemente la definición de una convolución, podemos incluso hacer que se aplique a todo variables aleatorias, independientemente de su distribución - aunque en ese momento la fórmula se convierte casi en una tautología, ya que tendremos más o menos sólo definido la convolución de dos distribuciones de probabilidad arbitrarias para ser la distribución de la suma de dos variables aleatorias independientes con esas distribuciones.
Pero aún así, todo este asunto de las convoluciones y distribuciones y PMFs y PDFs es realmente un conjunto de herramientas para calcular cosas sobre las variables aleatorias. Los objetos fundamentales que estamos calculando cosas sobre son las propias variables aleatorias, que en realidad son sólo números cuyos valores no estamos seguros .
Y además, ese truco de convolución sólo trabaja para sumas de las variables aleatorias, de todos modos. Si quisieras saber, por ejemplo, la distribución de $U = XY$ o $V = X^Y$ Tendrías que resolverlo con métodos elementales, y el resultado sería no sea una convolución.
Adenda: Si quieres una fórmula genérica para calcular la distribución de la suma / producto / exponencial / cualquier combinación de dos variables aleatorias, aquí tienes una forma de escribirla: $$A = B \odot C \implies \Pr[A = a] = \sum_{b,c} \Pr[B = b \text{ and } C = c] [a = b \odot c],$$ donde $\odot$ representa una operación binaria arbitraria y $[a = b \odot c]$ es un Soporte Iverson es decir $$[a = b \odot c] = \begin{cases}1 & \text{if } a = b \odot c, \text{ and} \\ 0 & \text{otherwise}. \end{cases}$$
(La generalización de esta fórmula para variables aleatorias no discretas se deja como un ejercicio de formalismo en su mayor parte inútil. El caso discreto es suficiente para ilustrar la idea esencial, y el caso no discreto sólo añade un montón de complicaciones irrelevantes).
Puedes comprobar tú mismo que esta fórmula funciona, por ejemplo, para la suma y que, para el caso especial de sumar dos independiente variables aleatorias, es equivalente a la fórmula de "convolución" dada anteriormente.
Por supuesto, en la práctica, esta fórmula general es mucho menos útil para el cálculo, ya que implica una suma sobre dos variables no limitadas en lugar de una sola. Pero a diferencia de la fórmula de la suma simple, funciona para funciones arbitrarias de dos variables aleatorias, incluso las no invertibles, y además muestra explícitamente la operación $\odot$ en lugar de disfrazarla como su inversa (como la fórmula de la "convolución" disfraza la suma como la resta).
Ps. Acabo de tirar los dados. Resulta que $X = 5$ y $Y = 6$ , lo que implica que $Q = 6$ , $R = 15$ , $S = 2.25$ , $T = 11$ , $U = 30$ y $V = 15625$ . Ahora ya lo sabes. ;-)
0 votos
Aquí hay una visualización en youtube: youtube.com/watch?v=Ma0YONjMZLI&feature=youtu.be
1 votos
En cierta medida, esta cuestión puede duplicar la existente ¿Por qué funciona la convolución?
0 votos
@Silverfish Para la frase "El oro es raro" la pregunta "¿Qué es el oro?" tendría poco que ver con "¿Qué quieres decir con 'raro'?"
0 votos
Esto puede ser más fácil de intuir si se mira la suma de 100, o 1000, RVs funciona. algo está convergiendo a un cierto algo
6 votos
Realmente no creo que sea "suma" en un algebraico abstracto sentido. Cuando hacemos una 'suma de variables' nos referimos a la típica operación aritmética que conocemos al sumar números naturales o números reales. Esto significa que hacemos una nueva variable "sumando" las otras variables. La noción de "suma de variables" también existe fuera del ámbito de la estadística y es independiente de las expresiones sobre convoluciones y probabilidades. Así que, efectivamente, "la suma de variables es una convolución", es un error. Pero nadie está insinuando esto. Deberíamos cambiar la palabra "es" en esa afirmación.
5 votos
Esto es como argumentar que $f(x) \cdot g(x)$ no debería llamarse "el producto de dos funciones f y g" (o sólo interpretarse como alguna noción algebraica abstracta de "producto") porque es una convolución en términos de las transformadas de Fourier de esas funciones.
0 votos
$a\neq$ la suma de variables, sino la suma algebraica de variables aleatorias, que se define como una operación a través de su convolución.
18 votos
El "aviso" es engañoso. Una suma de variables aleatorias $X$ y $Y$ se entiende precisamente en el mismo sentido en que los escolares entienden "suma": para cada $\omega$ el valor $(X+Y)(\omega)$ se encuentra sumando los números $X(\omega)$ y $Y(\omega).$ No hay nada abstracto en ello. Estos vehículos recreativos tienen distribuciones. Existen muchas formas de representar las distribuciones. La función de distribución de $X+Y$ es el convolución de los DF de $X$ y $Y$ la función característica de $X+Y$ es el producto de sus CFs; la función generadora de cumulantes de $X+Y$ es el suma de sus CGF; y así sucesivamente.
0 votos
@whuber Explica esto, por favor: $\text{ListConvolve}\left[\left\{x_1,x_2\right\},\left\{y_1,y_2,y_3\right\}\right]==\left\{x_2 y_1+x_1 y_2,x_2 y_2+x_1 y_3\right\}$ mientras que $\left\{x_1,x_2\right\}+\left\{y_1,y_2,y_3\right\}$ es indefinido como un $2\times1$ y $3\times1$ La adición de la matriz no está definida.
3 votos
No veo ni variables aleatorias ni distribuciones en tu cálculo.
0 votos
@whuber Ver el comentario de Ilmari Karonen justo debajo de su post para la convolución de probabilidad de la función de masa ejemplo.
0 votos
@whuber Aviso borrado. Cuando escribes $X+Y$ ¿quieres decir $\Sigma_{i=1}^n\left(X_i+Y_i\right)$ ?
2 votos
@Carl: No lo hace. La suma de dos variables aleatorias no es eso. He intentado explicarlo en mi respuesta.
8 votos
En el lenguaje de mi post en stats.stackexchange.com/a/54894/919 un par de variables aleatorias $(X,Y)$ consiste en una caja de billetes en la que están escritos dos números, uno designado $X$ y el otro $Y.$ La suma de estas variables aleatorias se obtiene sumando los dos números encontrados en cada billete. El cálculo es, literalmente, una tarea que se podría asignar a un aula de tercer grado. (Hago esta puntualización para destacar tanto la simplicidad fundamental de la operación como para mostrar lo fuertemente conectada que está con lo que todo el mundo entiende que es una "suma").
2 votos
@whuber Tu único párrafo ayudó mucho más que las largas respuestas de abajo, ¡estupendo! Me encantaría que fuera literalmente copiado y pegado en una respuesta, pero por ahora he votado el comentario para que los futuros lectores puedan verlo.
0 votos
@Yatharth Vale, he hecho el copia-pega y luego he ampliado un poco la respuesta. Gracias por los ánimos.
0 votos
@MartijnWeterings En lenguaje matemático correcto en este contexto "suma" significa $n$ -suma de vectores espaciales . Por desgracia, la notación y el lenguaje estadístico suelen reinventar conceptos que están mejor desarrollados en otros lugares. En concreto, los VR serían un subconjunto de un subconjunto de tipos de vectores en otro lugar y las reglas para su manipulación están mucho mejor documentadas en otro lugar.
3 votos
@Carl 'suma de dos variables' significa sumar de la misma manera que sumarías los números de dos tiradas de dados. Parece que eres tú quien inventa el 'vector n-espacio'. Nunca había oído hablar de él en este contexto. Simplemente estás mezclando demasiados conceptos como ya he explicado antes en los comentarios de la respuesta.
0 votos
@MartijnWeterings El concepto esencial es que los resultados se emparejan, y los pares se suman. Así es como $n$ -Los vectores espaciales se suman porque cada uno de los $n$ dimensiones es ortogonal entre sí, lo que significa que la única adición que puede ocurrir es dentro de cada dimensión. Hay muchas reglas muy útiles para manipular vectores, por ejemplo, la longitud del vector es la raíz cuadrada media, los vectores tienen productos punto y cruz, etc. Aprender es mejor que quejarse por no saber, y no saber no es una insignia de honor que merezca la pena exhibir.