16 votos

¿Definición de familia de una distribución?

¿La familia de una distribución tiene una definición diferente para la estadística que en otras disciplinas?

En general, un familia de curvas es un conjunto de curvas, cada una de las cuales viene dada por una función o parametrización en la que se varían uno o varios de los parámetros. Estas familias se utilizan, por ejemplo, para caracterizar los componentes electrónicos .

Para las estadísticas, un familia según una fuente es el resultado de variar el parámetro de forma. ¿Cómo podemos entender entonces que la distribución gamma tenga un parámetro de forma y otro de escala y sólo la distribución gamma generalizada tenga, además, un parámetro de localización? ¿Hace eso que la familia sea el resultado de variar el parámetro de localización? Según @whuber el significado de una familia está implícito Una "parametrización" de una familia es un mapa continuo desde un subconjunto de $^n$ con su topología habitual, en el espacio de las distribuciones, cuya imagen es esa familia.

¿Qué es, en lenguaje sencillo, una familia de distribuciones estadísticas?

La cuestión de las relaciones entre las propiedades estadísticas de las distribuciones de la misma familia ya ha generado una considerable controversia por un pregunta diferente por lo que parece que vale la pena explorar el significado.

El hecho de que no se trata necesariamente de una simple pregunta queda demostrado por su uso en la frase familia exponencial que no tiene nada que ver con una familia de curvas, sino que está relacionado con el cambio de la forma de la FDP de una distribución mediante la reparametrización no sólo de los parámetros, sino también la sustitución de funciones de variables aleatorias independientes.

1 votos

Con la expresión "familia de una distribución", ¿se refiere a otra cosa "una familia de distribuciones"? Una familia exponencial es una familia de distribuciones (con ciertas propiedades), e interpretando la pdf de cada distribución como una curva, corresponde incluso a una familia de curvas, por lo que los últimos párrafos parecen confusos.

0 votos

@JuhoKokkala Parece confuso porque el significado de "familia" depende del contexto. Por ejemplo, una distribución normal de media desconocida y varianza conocida está en la familia exponencial. Una distribución normal tiene soporte infinito, $(-\infty,+\infty)$ y una distribución exponencial tiene un soporte semi-infinito, $[0,+\infty)$ Por tanto, no existe una familia de curvas para una distribución exponencial que cubra el rango de una distribución normal, nunca tienen la misma forma...

0 votos

@JuhoKokkala ...y una PDF exponencial ni siquiera tiene un parámetro de localización, mientras que una distribución normal no puede prescindir de él. Ver el enlace anterior para las sustituciones necesarias, y el contexto en el que una pdf normal está en la familia exponencial.

16voto

jldugger Puntos 7490

Los conceptos estadísticos y matemáticos son exactamente los mismos, entendiendo que "familia" es un término matemático genérico con variaciones técnicas adaptadas a diferentes circunstancias:

Una familia paramétrica es una curva (o superficie u otra generalización de dimensión finita de la misma) en el espacio de todas las distribuciones.

El resto de este artículo explica lo que significa. Como apunte, no creo que nada de esto sea controvertido, ni matemática ni estadísticamente (aparte de una cuestión menor que se señala más adelante). En apoyo de esta opinión he aportado muchas referencias (la mayoría a artículos de Wikipedia).


Esta terminología de "familias" tiende a utilizarse cuando se estudian las clases $\mathcal C_Y$ de funciones en un conjunto $Y$ o "mapas". Dado un dominio $X$ , a familia $\mathcal F$ de mapas en $X$ parametrizado por algún conjunto $\Theta$ (los "parámetros") es una función

$$\mathcal F : X\times \Theta\to Y$$

para lo cual (1) para cada $\theta\in\Theta$ la función $\mathcal{F}_\theta:X\to Y$ dado por $\mathcal{F}_\theta(x)=\mathcal{F}(x,\theta)$ está en $\mathcal{C}_Y$ y (2) $\mathcal F$ tiene ciertas propiedades "agradables".

La idea es que queremos variar las funciones de $X$ a $Y$ de manera "suave" o controlada. La propiedad (1) significa que cada $\theta$ designa dicha función, mientras que los detalles de la propiedad (2) captarán el sentido en que un "pequeño" cambio en $\theta$ induce un cambio suficientemente "pequeño" en $\mathcal{F}_\theta$ .

Un ejemplo matemático estándar, cerca de la mencionada en la pregunta, es una homotopía . En este caso $\mathcal{C}_Y$ es el categoría de mapas continuos de espacios topológicos $X$ en el espacio topológico $Y$ ; $\Theta=[0,1]\subset\mathbb{R}$ es el intervalo unitario con su topología habitual, y requerimos que $\mathcal{F}$ ser un continuo mapa del producto topológico $X \times \Theta$ en $Y$ . Se puede considerar como una "deformación continua del mapa $\mathcal{F}_0$ a $\mathcal{F}_1$ ." Cuando $X=[0,1]$ es a su vez un intervalo, tales mapas son curvas en $Y$ y la homotopía es una deformación suave de una curva a otra.

Para aplicaciones estadísticas, $\mathcal{C}_Y$ es el conjunto de todas las distribuciones en $\mathbb{R}$ (o, en la práctica, en $\mathbb{R}^n$ para algunos $n$ pero para que la exposición sea sencilla me centraré en $n=1$ ). Podemos identificarlo con el conjunto de todos los no decrecientes càdlàg funciones $\mathbb{R}\to [0,1]$ donde el cierre de su rango incluye tanto $0$ y $1$ : estos son los funciones de distribución acumulativa, o simplemente funciones de distribución. Así, $X=\mathbb R$ y $Y=[0,1]$ .

A familia de distribuciones es cualquier subconjunto de $\mathcal{C}_Y$ . Otro nombre para una familia es modelo estadístico. Consiste en todas las distribuciones que suponemos que gobiernan nuestras observaciones, pero no sabemos qué distribución es la real.

  • Una familia puede estar vacía.
  • $\mathcal{C}_Y$ es una familia.
  • Una familia puede estar formada por una única distribución o por un número finito de ellas.

Estas características abstractas de la teoría de conjuntos tienen relativamente poco interés o utilidad. Sólo cuando consideramos una estructura matemática adicional (relevante) en $\mathcal{C}_Y$ que este concepto sea útil. Pero, ¿qué propiedades de $\mathcal{C}_Y$ son de interés estadístico? Algunos que aparecen con frecuencia son:

  1. $\mathcal{C}_Y$ es un conjunto convexo dado dos distribuciones cualesquiera ${F}, {G}\in \mathcal{C}_Y$ podemos formar el distribución de la mezcla $(1-t){F}+t{G}\in Y$ para todos $t\in[0,1]$ . Se trata de una especie de "homotopía" de $F$ a $G$ .

  2. Grandes partes de $\mathcal{C}_Y$ soportan varias pseudo métricas, como la Divergencia de Kullback-Leibler o la métrica de información de Fisher, estrechamente relacionada.

  3. $\mathcal{C}_Y$ tiene una estructura aditiva: a dos distribuciones cualesquiera les corresponde $F$ y $G$ es su suma, ${F}\star {G}$ .

  4. $\mathcal{C}_Y$ soporta muchas funciones útiles y naturales, a menudo denominadas "propiedades". Estas incluyen cualquier cuantil fijo (como la mediana), así como el cumulantes .

  5. $\mathcal{C}_Y$ es un subconjunto de a espacio de la función. Como tal, hereda muchas métricas útiles, como la sup norma ( $L^\infty$ norma) dada por $$||F-G||_\infty = \sup_{x\in\mathbb{R}}|F(x)-G(x)|.$$

  6. Natural acciones de grupo en $\mathbb R$ inducir acciones en $\mathcal{C}_Y$ . Las acciones más comunes son traducciones $T_\mu:x \to x+\mu$ y escalas $S_\sigma:x\to x\sigma$ para $\sigma\gt 0$ . El efecto que tienen en una distribución es enviar $F$ a la distribución dada por $F^{\mu,\sigma}(x) = F((x-\mu)/\sigma)$ . Esto lleva a los conceptos de familias a escala de localización y sus generalizaciones. (No proporciono una referencia, porque las búsquedas exhaustivas en la web hacen aparecer una variedad de definiciones diferentes: aquí, al menos, puede haber un poco de controversia).

Las propiedades que importan dependen del problema estadístico y sobre cómo piensa analizar los datos. Abordar todas las variaciones sugeridas por las características anteriores ocuparía demasiado espacio para este medio. Centrémonos en una aplicación común importante.

Por ejemplo, la máxima probabilidad. En la mayoría de las aplicaciones querrás poder utilizar el Cálculo para obtener una estimación. Para que esto funcione, debes ser capaz de "tomar derivadas" en la familia.

( Un detalle técnico: La forma habitual de hacerlo es seleccionar un dominio $\Theta\subset \mathbb{R}^d$ para $d\ge 0$ y especificar un _continua, localmente invertible función $p$ de $\Theta$ en $\mathcal{C}_Y$ . (Esto significa que para cada $\theta\in\Theta$ existe una bola $B(\theta, \epsilon)$ con $\epsilon\gt 0$ para lo cual $p\mid\{B(\theta,\epsilon)}: B(\theta,\epsilon)\cap \Theta \to \mathcal{C}_Y$ es uno a uno. En otras palabras, si alteramos $\theta$ por una cantidad suficientemente pequeña siempre obtendremos una distribución diferente).

En consecuencia, en la mayoría de las aplicaciones de ML requerimos que $p$ sea continua (y con suerte, diferenciable en casi todas partes) en la $\Theta$ componente. (Sin continuidad, la maximización de la probabilidad se convierte generalmente en un problema intratable). Esto nos lleva a la siguiente definición orientada a la probabilidad de un familia paramétrica :

Una familia paramétrica de distribuciones (univariantes) es un mapa localmente invertible $$\mathcal{F}:\mathbb{R}\times\Theta \to [0,1],$$ con $\Theta\subset \mathbb{R}^n$ para lo cual (a) cada $\mathcal{F}_\theta$ es una función de distribución y (b) para cada $x\in\mathbb R$ la función $\mathcal{L}_x: \theta\to [0,1]$ dado por $\mathcal{L}_x(\theta) = \mathcal{F}(x,\theta)$ es continua y diferenciable en casi todas partes.

Obsérvese que una familia paramétrica $\mathcal F$ es algo más que la colección de $\mathcal{F}_\theta$ : también incluye la forma específica en que los valores de los parámetros $\theta$ corresponden a distribuciones.

Terminemos con algunos ejemplos ilustrativos.

  • Dejemos que $\mathcal{C}_Y$ sea el conjunto de todos los Distribuciones normales. Como dado, esto es pas una familia paramétrica: es sólo una familia. Para ser paramétrica, tenemos que elegir una parametrización. Una forma es elegir $\Theta = \{(\mu,\sigma)\in\mathbb{R}^2\mid \sigma \gt 0\}$ y para mapear $(\mu,\sigma)$ a la distribución Normal con media $\mu$ y la varianza $\sigma^2$ .

  • El conjunto de Poisson $(\lambda)$ distribuciones es una familia paramétrica con $\lambda\in\Theta=(0,\infty)\subset\mathbb{R}^1$ .

  • El conjunto de Uniformes $(\theta, \theta+1)$ distribuciones (que cuenta con en muchos ejercicios de los libros de texto) es una familia paramétrica con $\theta\in\mathbb{R}^1$ . En este caso, $F_\theta(x) = \max(0, \min(1, x-\theta))$ es diferenciable en $\theta$ excepto en el caso de $\theta\in\{x, x-1\}$ .

  • Dejemos que $F$ y $G$ sea cualquier dos distribuciones. Entonces $\mathcal{F}(x,\theta)=(1-\theta)F(x)+\theta G(x)$ es una familia paramétrica para $\theta\in[0,1]$ . (Prueba: la imagen de $\mathcal F$ es un conjunto de distribuciones y su derivada parcial en $\theta$ es igual a $-F(x)+G(x)$ que se define en todas partes).

  • El Familia Pearson es una familia de cuatro dimensiones, $\Theta\subset\mathbb{R}^4$ que incluye (entre otras) las distribuciones Normal, Beta y Gamma inversa. Esto ilustra el hecho de que cualquier distribución puede pertenecer a muchas familias de distribución . Esto es perfectamente análogo a observar que cualquier punto de un espacio (suficientemente grande) puede pertenecer a muchos caminos que se cruzan en él. Esto, junto con la construcción anterior, nos muestra que ninguna distribución determina unívocamente la familia a la que pertenece.

  • La familia $\mathcal{C}_Y$ de todas las distribuciones absolutamente continuas de varianza finita es pas paramétrico. La prueba requiere un teorema profundo de topología: si dotamos a $\mathcal{C}_Y$ con cualquier topología (ya sea estadísticamente útil o no) y $p: \Theta\to\mathcal{C}_Y$ es continua y localmente tiene una inversa continua, entonces localmente $\mathcal{C}_Y$ debe tener la misma dimensión que la de $\Theta$ . Sin embargo, en todas las topologías estadísticamente significativas, $\mathcal{C}_Y$ es infinito dimensional.

2 votos

Me llevará un día digerir su respuesta. Tendré que masticar lentamente. Mientras tanto, gracias.

0 votos

(+1) Vale, lo he superado. Así que es $\mathcal{F}:\mathbb{R}\times\Theta \to [0,1]$ ¿un espacio polaco o no? ¿Podemos hacer una respuesta sencilla para que la gente sepa cómo evitar el uso de la palabra familia impropiamente, por favor. @JuhoKokkala relató, por ejemplo, que Wikipedia abusó del lenguaje en su familia exponencial que necesita ser aclarado.

1 votos

¿No sirve la segunda frase de esta respuesta a esa petición de simplicidad?

1voto

jasonmray Puntos 1303

Para abordar un punto específico planteado en la pregunta: "familia exponencial" no denota un conjunto de distribuciones. (La distribución exponencial estándar, por ejemplo, es un miembro de la familia de distribuciones exponenciales, una familia exponencial; de la familia de distribuciones gamma, también una familia exponencial; de la familia de distribuciones Weibull, no una familia exponencial; y de cualquier otra familia que se pueda imaginar). Más bien, "exponencial" se refiere aquí a una propiedad que posee una familia de distribuciones. Así que no deberíamos hablar de "distribuciones de la familia exponencial" sino de "familias exponenciales de distribuciones"; lo primero es un abuso de la terminología, como señala @JuhoKokkala. Por alguna razón, nadie comete este abuso cuando se habla de familias de escala de localización.

0voto

Hoogendijk Puntos 45

Gracias a @whuber hay suficiente información para resumir en lo que espero sea una forma más sencilla relacionada con el pregunta del que surgió este post. "Otro nombre para un familia [ Sic La familia estadística] es [a] modelo estadístico ."

A partir de ahí Entrada de Wikipedia: Un modelo estadístico consiste en todas las distribuciones que suponemos que gobiernan nuestras observaciones, pero no sabemos qué distribución es la real. Lo que distingue a un modelo estadístico de otros modelos matemáticos es que un modelo estadístico no es determinista. Así, en un modelo estadístico especificado mediante ecuaciones matemáticas, algunas de las variables no tienen valores específicos, sino que tienen distribuciones de probabilidad; es decir, algunas de las variables son estocásticas. Un modelo estadístico suele considerarse como un par $( S , P )$ où $S$ es el conjunto de observaciones posibles, es decir, el espacio muestral, y $P$ es un conjunto de distribuciones de probabilidad sobre $S$ .

Supongamos que tenemos un modelo estadístico $(S, \mathcal{P})$ con $\mathcal{P}=\{P_{\theta} : \theta \in \Theta\}$ . Se dice que el modelo es un Modelo paramétrico si $\Theta$ tiene una dimensión finita. En notación, escribimos que $\Theta \subseteq \mathbb{R}^d$ donde $d$ es un número entero positivo ( $\mathbb{R}$ denota los números reales; en principio, se pueden utilizar otros conjuntos). Aquí, $d$ se llama dimensión del modelo.

Por ejemplo, si asumimos que los datos provienen de una distribución gaussiana univariante, entonces estamos asumiendo que
$$\mathcal{P}=\left\{P_{\mu,\sigma }(x) \equiv \frac{1}{\sqrt{2 \pi} \sigma} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2}\right) : \mu \in \mathbb{R}, \sigma > 0 \right\}. $$ En este ejemplo, la dimensión, $d$ es igual a 2, fin de la cita .

Así, si reducimos la dimensionalidad asignando, para el ejemplo anterior $\mu=0$ podemos mostrar un familia de curvas mediante el trazado de $\sigma=1,2,3,4,5$ o cualquier opción para $\sigma$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X