72 votos

¿Qué tiene de bueno el teorema de representación de De Finetti?

En Teoría de la Estadística por Mark J. Schervish (página 12):

Aunque el teorema de representación 1.49 de DeFinetti es fundamental para motivar los modelos paramétricos, en realidad no se utiliza en su aplicación.

¿Qué importancia tiene el teorema para los modelos paramétricos?

2 votos

Creo que es fundamental para los modelos bayesianos. Estaba discutiendo esto con Singleton. Su importancia en la estadística bayesiana se pasa por alto, excepto por aquellos bayesianos que fueron seguidores de deFinetti. Véase esta referencia de Diaconis y Freedman a partir de 1980

1 votos

@cardinal: página 12 (he actualizado la pregunta).

3 votos

Tenga en cuenta que Schervish dijo "... central para $\textbf{motivating}$ modelos paramétricos...".

102voto

farzad Puntos 4180

El Teorema de Representación de De Finetti da en una sola toma, dentro de la interpretación subjetivista de las probabilidades, la razón de ser de los modelos estadísticos y el significado de los parámetros y sus distribuciones a priori.

Supongamos que las variables aleatorias $X_1,\dots,X_n$ representan los resultados de lanzamientos sucesivos de una moneda, con valores $1$ y $0$ correspondientes a los resultados "Cara" y "Cruz", respectivamente. Analizando, en el contexto de una interpretación subjetivista del cálculo de probabilidades, el significado del modelo frecuentista habitual según el cual el $X_i$ son independientes e idénticamente distribuidos, De Finetti observó que la condición de independencia implicaría, por ejemplo, que $$ P\{X_n=x_n\mid X_1=x_1,\dots,X_{n-1}=x_{n-1}\} = P\{X_n=x_n\} \, , $$ y, por tanto, los resultados de la primera $n-1$ lanzamientos no cambiaría mi incertidumbre sobre el resultado de $n$ -th toss. Por ejemplo, si creo $\textit{a priori}$ que se trata de una moneda equilibrada, entonces, tras obtener la información de que la primera $999$ resultara "Cara", seguiría creyendo, condicionado a esa información, que la probabilidad de obtener "Cara" en la tirada 1000 es igual a $1/2$ . Efectivamente, la hipótesis de independencia de la $X_i$ implicaría que es imposible aprender nada sobre la moneda observando los resultados de sus lanzamientos.

Esta observación llevó a De Finetti a introducir una condición más débil que la independencia que resuelve esta aparente contradicción. La clave de la solución de De Finetti es un tipo de simetría distributiva conocida como intercambiabilidad.

$\textbf{Definition.}$ Para un conjunto finito dado $\{X_i\}_{i=1}^n$ de objetos aleatorios, sea $\mu_{X_1,\dots,X_n}$ denotan su distribución conjunta. Este conjunto finito es intercambiable si $\mu_{X_1,\dots,X_n} = \mu_{X_{\pi(1)},\dots,X_{\pi(n)}}$ para cada permutación $\pi:\{1,\dots,n\}\to\{1,\dots,n\}$ . Una secuencia $\{X_i\}_{i=1}^\infty$ de objetos aleatorios es intercambiable si cada uno de sus subconjuntos finitos es intercambiable.

Suponiendo únicamente que la secuencia de variables aleatorias $\{X_i\}_{i=1}^\infty$ es intercambiable, De Finetti demostró un notable teorema que arroja luz sobre el significado de modelos estadísticos de uso común. En el caso particular de que el $X_i$ toman los valores $0$ y $1$ , el Teorema de Representación de De Finetti dice que $\{X_i\}_{i=1}^\infty$ es intercambiable si y sólo si existe una variable aleatoria $\Theta:\Omega\to[0,1]$ con distribución $\mu_\Theta$ tal que $$ P\{X_1=x_1,\dots,X_n=x_n\} = \int_{[0,1]} \theta^s(1-\theta)^{n-s}\,d\mu_\Theta(\theta) \, , $$ en el que $s=\sum_{i=1}^n x_i$ . Además, tenemos que $$ \bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \xrightarrow[n\to\infty]{} \Theta \qquad \textrm{almost surely}, $$ que se conoce como la Ley Fuerte de los Grandes Números de De Finetti.

Este Teorema de Representación muestra cómo surgen los modelos estadísticos en un contexto bayesiano: bajo la hipótesis de intercambiabilidad de los observables $\{X_i\}_{i=1}^\infty$ , $\textbf{there is}$ a $\textit{parameter}$ $\Theta$ tal que, dado el valor de $\Theta$ los observables son $\textit{conditionally}$ independientes e idénticamente distribuidos. Además, la ley Strong de De Finetti muestra que nuestra opinión previa sobre el inobservable $\Theta$ representada por la distribución $\mu_\Theta$ es la opinión sobre el límite de $\bar{X}_n$ , antes de tener información sobre los valores de las realizaciones de cualquiera de los $X_i$ 's. El parámetro $\Theta$ desempeña el papel de una útil construcción subsidiaria, que nos permite obtener probabilidades condicionales que implican sólo observables mediante relaciones como $$ P\{X_n=1\mid X_1=x_1,\dots,X_{n-1}=x_{n-1}\} = \mathrm{E}\left[\Theta\mid X_1=x_1,\dots,X_{n-1}=x_{n-1}\right] \, . $$

2 votos

Gracias por esta respuesta tan perspicaz. Tu punto sobre la independencia es muy importante y me doy cuenta de ello por primera vez.

0 votos

("un útil" era mejor :) )

1 votos

Me cuesta entender la afirmación "existe el parámetro $\Theta$ de modo que (dado $\Theta$ ) $X_i$ son iid". Del teorema de representación, parece que todo lo que podemos derivar es que $E [\theta^s (1-\theta)^s] = E[P(X_i = x_i \, \forall \, i | \theta) ]$ . Es decir, el valor esperado de la densidad verdadera es el mismo que el valor esperado de la densidad iid bernoulli con parámetro $\theta$ . ¿Podría aclararme cómo podemos descartar el valor esperado para hacer una afirmación sobre la densidad verdadera en sí?

19voto

Ηλίας Puntos 109

Todo es matemáticamente correcto en la respuesta de Zen. Sin embargo, discrepo en algunos puntos. Tenga en cuenta que no pretendo/creo que mi punto de vista sea el bueno; al contrario, creo que estos puntos aún no están del todo claros para mí. Son cuestiones un tanto filosóficas sobre las que me gusta debatir (y un buen ejercicio de inglés para mí), y también me interesa cualquier consejo.

  • Sobre el ejemplo con $999$ "Cabezas", comentario Zen: "la hipótesis de la independencia del $X_i$ implicaría que es imposible aprender nada sobre la moneda observando los resultados de sus lanzamientos". Esto no es cierto desde la perspectiva frecuentista: aprender sobre la moneda significa aprender sobre $\theta$ lo que es posible estimando (estimación puntual o intervalo de confianza) $\theta$ del anterior $999$ resultados. Si el frecuentista observa $999$ "Cabezas" entonces concluye que $\theta$ es probable que se acerque a $1$ y también $\Pr(X_n=1)$ en consecuencia.

  • Por cierto, en este ejemplo de lanzar una moneda, ¿cuál es el azar $\Theta$ ? Imaginando que cada una de dos personas juega a lanzar una moneda un número infinito de veces con la misma moneda, ¿por qué encontrarían una diferente $\theta = \bar X_\infty$ ? Tengo en cuenta que la característica del lanzamiento de monedas es la fija $\theta$ que es el valor común de $\bar X_\infty$ para cualquier jugador ("casi cualquier jugador" por razones técnico-matemáticas). Un ejemplo más concreto para el que no existe un azar interpretable $\Theta$ es el caso de un muestreo aleatorio con sustitución en una población finita de $0$ y $1$ .

  • Sobre el libro de Schervish y la pregunta planteada por el OP creo que (hablando rápidamente) Schervish quiere decir que la intercambiabilidad es un supuesto "guay" y entonces el teorema de deFinetti es "guay" porque dice que todo modelo intercambiable tiene una representación paramétrica. Por supuesto, estoy totalmente de acuerdo. Sin embargo, si asumo un modelo intercambiable como $(X_i\mid\Theta=\theta)\sim_\text{iid} \text{Bernoulli}(\theta)$ y $\Theta \sim \text{Beta}(a,b)$ entonces me interesaría realizar inferencias sobre $a$ y $b$ no sobre la realización de $\Theta$ . Si sólo me interesa la realización de $\Theta$ entonces no veo ningún interés en asumir la intercambiabilidad.

Es tarde...

6 votos

¡Hola Stéphane! Gracias por tus comentarios sobre mi respuesta. Acerca de su primer punto que $\textbf{"this is not true from the frequentist perspective"}$ En mi respuesta, todo se plantea en un contexto bayesiano. No hay ningún intento real de establecer un contraste con otros paradigmas de inferencia. En resumen, he intentado expresar lo que el teorema de De Finetti significa para mí, como bayesiano.

5 votos

Sobre su segundo punto: el azar $\Theta$ es (a.s.) el límite de $\bar{X}_n$ como se indica en la LLN de De Finetti. Por lo tanto, cuando algún bayesiano dice que mi prior para $\Theta$ es $\mu_\Theta$ quiere decir que esta distribución representa su incertidumbre sobre este límite, antes de tener acceso a los datos. Diferentes bayesianos pueden tener diferentes priors, pero, con condiciones de regularidad adecuadas, tendrán $\textit{a posteriori}$ acuerdo sobre $\Theta$ (posteriors similares), a medida que obtienen más y más información sobre los resultados de los lanzamientos.

0 votos

Lo fijo pero desconocido $\theta$ no es un concepto bayesiano.

14voto

trotterdylan Puntos 279

Quizá les interese un artículo sobre este tema (es necesario suscribirse a una revista para acceder a él; inténtelo desde su universidad):

O'Neill, B. (2011) Intercambiabilidad, correlación y efecto Bayes. International Statistical Review 77(2), pp. 241-250.

En este artículo se analiza el teorema de la representación como base de los modelos IID bayesianos y frecuentistas, y también se aplica a un ejemplo de lanzamiento de monedas. Debería aclarar el debate sobre los supuestos del paradigma frecuentista. En realidad, utiliza una extensión más amplia del teorema de la representación que va más allá del modelo binomial, pero debería seguir siendo útil.

0 votos

¿Existe tal vez una versión en papel de esto? No tengo acceso en este momento :-(

1 votos

@Stats He leído ese artículo después de ver tu respuesta. Tengo que decir, que es el mejor paper que ilustra Bayesiano y Frecuentista sobre ese tema que he visto. Ojalá hubiera leído este paper mucho antes. (+1)

0 votos

@IMA: El autor es colaborador habitual aquí stats.stackexchange.com/users/173082/ben?tab=perfil así que si no puedes encontrar el periódico, ¿tal vez escribirle?

4voto

Intentaré rebatir la afirmación de que el teorema no es directamente útil, con un ejemplo de actualidad: La modelización COVID.

Creo que hemos visto que los modelos que intentan replicar la realidad en todos sus detalles han demostrado ser difíciles de dirigir durante esta crisis, dando lugar a malas predicciones a pesar de los nobles y urgentes esfuerzos por recalibrarlos. Por otra parte, los modelos compartimentados demasiado estilizados se han topado de bruces con paradojas, como la inmunidad de rebaño de Suecia. El teorema de De Finetti inspira un enfoque diferente.

Identificamos órbitas en el espacio de modelos que dejan inalteradas las magnitudes decisorias clave que nos interesan. Utilizamos mezclas de modelos IID para abarcar las órbitas. La pregunta es: ¿podemos encontrar la órbita correcta? Es mucho más fácil que encontrar el modelo "correcto".

La órbita puede localizarse mediante ajustes de convexidad. Para más detalles, le remito a la página artículo del blog o documento de trabajo .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X