Los conceptos estadísticos y matemáticos son exactamente los mismos, entendiendo que "familia" es un término matemático genérico con variaciones técnicas adaptadas a diferentes circunstancias:
Una familia paramétrica es una curva (o superficie u otra generalización de dimensión finita de la misma) en el espacio de todas las distribuciones.
El resto de este artículo explica lo que significa. Como apunte, no creo que nada de esto sea controvertido, ni matemática ni estadísticamente (aparte de una cuestión menor que se señala más adelante). En apoyo de esta opinión he aportado muchas referencias (la mayoría a artículos de Wikipedia).
Esta terminología de "familias" tiende a utilizarse cuando se estudian las clases $\mathcal C_Y$ de funciones en un conjunto $Y$ o "mapas". Dado un dominio $X$ , a familia $\mathcal F$ de mapas en $X$ parametrizado por algún conjunto $\Theta$ (los "parámetros") es una función
$$\mathcal F : X\times \Theta\to Y$$
para lo cual (1) para cada $\theta\in\Theta$ la función $\mathcal{F}_\theta:X\to Y$ dado por $\mathcal{F}_\theta(x)=\mathcal{F}(x,\theta)$ está en $\mathcal{C}_Y$ y (2) $\mathcal F$ tiene ciertas propiedades "agradables".
La idea es que queremos variar las funciones de $X$ a $Y$ de manera "suave" o controlada. La propiedad (1) significa que cada $\theta$ designa dicha función, mientras que los detalles de la propiedad (2) captarán el sentido en que un "pequeño" cambio en $\theta$ induce un cambio suficientemente "pequeño" en $\mathcal{F}_\theta$ .
Un ejemplo matemático estándar, cerca de la mencionada en la pregunta, es una homotopía . En este caso $\mathcal{C}_Y$ es el categoría de mapas continuos de espacios topológicos $X$ en el espacio topológico $Y$ ; $\Theta=[0,1]\subset\mathbb{R}$ es el intervalo unitario con su topología habitual, y requerimos que $\mathcal{F}$ ser un continuo mapa del producto topológico $X \times \Theta$ en $Y$ . Se puede considerar como una "deformación continua del mapa $\mathcal{F}_0$ a $\mathcal{F}_1$ ." Cuando $X=[0,1]$ es a su vez un intervalo, tales mapas son curvas en $Y$ y la homotopía es una deformación suave de una curva a otra.
Para aplicaciones estadísticas, $\mathcal{C}_Y$ es el conjunto de todas las distribuciones en $\mathbb{R}$ (o, en la práctica, en $\mathbb{R}^n$ para algunos $n$ pero para que la exposición sea sencilla me centraré en $n=1$ ). Podemos identificarlo con el conjunto de todos los no decrecientes càdlàg funciones $\mathbb{R}\to [0,1]$ donde el cierre de su rango incluye tanto $0$ y $1$ : estos son los funciones de distribución acumulativa, o simplemente funciones de distribución. Así, $X=\mathbb R$ y $Y=[0,1]$ .
A familia de distribuciones es cualquier subconjunto de $\mathcal{C}_Y$ . Otro nombre para una familia es modelo estadístico. Consiste en todas las distribuciones que suponemos que gobiernan nuestras observaciones, pero no sabemos qué distribución es la real.
- Una familia puede estar vacía.
- $\mathcal{C}_Y$ es una familia.
- Una familia puede estar formada por una única distribución o por un número finito de ellas.
Estas características abstractas de la teoría de conjuntos tienen relativamente poco interés o utilidad. Sólo cuando consideramos una estructura matemática adicional (relevante) en $\mathcal{C}_Y$ que este concepto sea útil. Pero, ¿qué propiedades de $\mathcal{C}_Y$ son de interés estadístico? Algunos que aparecen con frecuencia son:
-
$\mathcal{C}_Y$ es un conjunto convexo dado dos distribuciones cualesquiera ${F}, {G}\in \mathcal{C}_Y$ podemos formar el distribución de la mezcla $(1-t){F}+t{G}\in Y$ para todos $t\in[0,1]$ . Se trata de una especie de "homotopía" de $F$ a $G$ .
-
Grandes partes de $\mathcal{C}_Y$ soportan varias pseudo métricas, como la Divergencia de Kullback-Leibler o la métrica de información de Fisher, estrechamente relacionada.
-
$\mathcal{C}_Y$ tiene una estructura aditiva: a dos distribuciones cualesquiera les corresponde $F$ y $G$ es su suma, ${F}\star {G}$ .
-
$\mathcal{C}_Y$ soporta muchas funciones útiles y naturales, a menudo denominadas "propiedades". Estas incluyen cualquier cuantil fijo (como la mediana), así como el cumulantes .
-
$\mathcal{C}_Y$ es un subconjunto de a espacio de la función. Como tal, hereda muchas métricas útiles, como la sup norma ( $L^\infty$ norma) dada por $$||F-G||_\infty = \sup_{x\in\mathbb{R}}|F(x)-G(x)|.$$
-
Natural acciones de grupo en $\mathbb R$ inducir acciones en $\mathcal{C}_Y$ . Las acciones más comunes son traducciones $T_\mu:x \to x+\mu$ y escalas $S_\sigma:x\to x\sigma$ para $\sigma\gt 0$ . El efecto que tienen en una distribución es enviar $F$ a la distribución dada por $F^{\mu,\sigma}(x) = F((x-\mu)/\sigma)$ . Esto lleva a los conceptos de familias a escala de localización y sus generalizaciones. (No proporciono una referencia, porque las búsquedas exhaustivas en la web hacen aparecer una variedad de definiciones diferentes: aquí, al menos, puede haber un poco de controversia).
Las propiedades que importan dependen del problema estadístico y sobre cómo piensa analizar los datos. Abordar todas las variaciones sugeridas por las características anteriores ocuparía demasiado espacio para este medio. Centrémonos en una aplicación común importante.
Por ejemplo, la máxima probabilidad. En la mayoría de las aplicaciones querrás poder utilizar el Cálculo para obtener una estimación. Para que esto funcione, debes ser capaz de "tomar derivadas" en la familia.
( Un detalle técnico: La forma habitual de hacerlo es seleccionar un dominio $\Theta\subset \mathbb{R}^d$ para $d\ge 0$ y especificar un _continua, localmente invertible función $p$ de $\Theta$ en $\mathcal{C}_Y$ . (Esto significa que para cada $\theta\in\Theta$ existe una bola $B(\theta, \epsilon)$ con $\epsilon\gt 0$ para lo cual $p\mid\{B(\theta,\epsilon)}: B(\theta,\epsilon)\cap \Theta \to \mathcal{C}_Y$ es uno a uno. En otras palabras, si alteramos $\theta$ por una cantidad suficientemente pequeña siempre obtendremos una distribución diferente).
En consecuencia, en la mayoría de las aplicaciones de ML requerimos que $p$ sea continua (y con suerte, diferenciable en casi todas partes) en la $\Theta$ componente. (Sin continuidad, la maximización de la probabilidad se convierte generalmente en un problema intratable). Esto nos lleva a la siguiente definición orientada a la probabilidad de un familia paramétrica :
Una familia paramétrica de distribuciones (univariantes) es un mapa localmente invertible $$\mathcal{F}:\mathbb{R}\times\Theta \to [0,1],$$ con $\Theta\subset \mathbb{R}^n$ para lo cual (a) cada $\mathcal{F}_\theta$ es una función de distribución y (b) para cada $x\in\mathbb R$ la función $\mathcal{L}_x: \theta\to [0,1]$ dado por $\mathcal{L}_x(\theta) = \mathcal{F}(x,\theta)$ es continua y diferenciable en casi todas partes.
Obsérvese que una familia paramétrica $\mathcal F$ es algo más que la colección de $\mathcal{F}_\theta$ : también incluye la forma específica en que los valores de los parámetros $\theta$ corresponden a distribuciones.
Terminemos con algunos ejemplos ilustrativos.
-
Dejemos que $\mathcal{C}_Y$ sea el conjunto de todos los Distribuciones normales. Como dado, esto es pas una familia paramétrica: es sólo una familia. Para ser paramétrica, tenemos que elegir una parametrización. Una forma es elegir $\Theta = \{(\mu,\sigma)\in\mathbb{R}^2\mid \sigma \gt 0\}$ y para mapear $(\mu,\sigma)$ a la distribución Normal con media $\mu$ y la varianza $\sigma^2$ .
-
El conjunto de Poisson $(\lambda)$ distribuciones es una familia paramétrica con $\lambda\in\Theta=(0,\infty)\subset\mathbb{R}^1$ .
-
El conjunto de Uniformes $(\theta, \theta+1)$ distribuciones (que cuenta con en muchos ejercicios de los libros de texto) es una familia paramétrica con $\theta\in\mathbb{R}^1$ . En este caso, $F_\theta(x) = \max(0, \min(1, x-\theta))$ es diferenciable en $\theta$ excepto en el caso de $\theta\in\{x, x-1\}$ .
-
Dejemos que $F$ y $G$ sea cualquier dos distribuciones. Entonces $\mathcal{F}(x,\theta)=(1-\theta)F(x)+\theta G(x)$ es una familia paramétrica para $\theta\in[0,1]$ . (Prueba: la imagen de $\mathcal F$ es un conjunto de distribuciones y su derivada parcial en $\theta$ es igual a $-F(x)+G(x)$ que se define en todas partes).
-
El Familia Pearson es una familia de cuatro dimensiones, $\Theta\subset\mathbb{R}^4$ que incluye (entre otras) las distribuciones Normal, Beta y Gamma inversa. Esto ilustra el hecho de que cualquier distribución puede pertenecer a muchas familias de distribución . Esto es perfectamente análogo a observar que cualquier punto de un espacio (suficientemente grande) puede pertenecer a muchos caminos que se cruzan en él. Esto, junto con la construcción anterior, nos muestra que ninguna distribución determina unívocamente la familia a la que pertenece.
-
La familia $\mathcal{C}_Y$ de todas las distribuciones absolutamente continuas de varianza finita es pas paramétrico. La prueba requiere un teorema profundo de topología: si dotamos a $\mathcal{C}_Y$ con cualquier topología (ya sea estadísticamente útil o no) y $p: \Theta\to\mathcal{C}_Y$ es continua y localmente tiene una inversa continua, entonces localmente $\mathcal{C}_Y$ debe tener la misma dimensión que la de $\Theta$ . Sin embargo, en todas las topologías estadísticamente significativas, $\mathcal{C}_Y$ es infinito dimensional.
1 votos
Con la expresión "familia de una distribución", ¿se refiere a otra cosa "una familia de distribuciones"? Una familia exponencial es una familia de distribuciones (con ciertas propiedades), e interpretando la pdf de cada distribución como una curva, corresponde incluso a una familia de curvas, por lo que los últimos párrafos parecen confusos.
0 votos
@JuhoKokkala Parece confuso porque el significado de "familia" depende del contexto. Por ejemplo, una distribución normal de media desconocida y varianza conocida está en la familia exponencial. Una distribución normal tiene soporte infinito, $(-\infty,+\infty)$ y una distribución exponencial tiene un soporte semi-infinito, $[0,+\infty)$ Por tanto, no existe una familia de curvas para una distribución exponencial que cubra el rango de una distribución normal, nunca tienen la misma forma...
0 votos
@JuhoKokkala ...y una PDF exponencial ni siquiera tiene un parámetro de localización, mientras que una distribución normal no puede prescindir de él. Ver el enlace anterior para las sustituciones necesarias, y el contexto en el que una pdf normal está en la familia exponencial.
1 votos
stats.stackexchange.com/questions/129990/ puede ser relevante. "La distribución normal de media desconocida y varianza conocida está en la familia exponencial" es, a mi entender, un abuso de la terminología (aunque algo común). Para ser exactos, una familia exponencial es una familia de distribuciones con ciertas propiedades. La familia de distribuciones normales con media desconocida y varianza conocida es un familia exponencial; la familia de distribuciones exponenciales es otra familia exponencial, etc.
0 votos
@JuhoKokkala La cita "distribución normal de media desconocida..." es de Wikipedia . Lo que he pedido es una explicación sencilla de lo que significa una familia, lo que estoy recibiendo es teoría topológica difícil de seguir. ¿Simple, alguien?
2 votos
@JuhoKokkala: Que "familia" sea tan comúnmente (ab)usado, en un caso especial, para significar "conjunto de familias" quizás valga la pena sacarlo en otra respuesta. (No se me ocurren otros casos - por alguna razón parece que nadie es propenso a hablar de " el familia a escala de localización").
0 votos
@Carl: La explicación que enlazas en "Familias de distribuciones" del Manual de Estadística de Ingeniería del NIST - "Muchas distribuciones de probabilidad no son una única distribución, sino que son en realidad una familia de distribuciones. Esto se debe a que la distribución tiene uno o más parámetros de forma". - es, en mi opinión, totalmente idiosincrásico.
0 votos
@Scortchi Y sin embargo, el NIST es una autoridad reconocida. Hay muchas cosas en cualquier campo que son idiosincrásicas. Creo que quizás los ingenieros eléctricos utilizan el término "familia" de forma diferente a los estadísticos. Por ejemplo, ¿por qué decir "método delta" cuando probablemente esté mejor documentada la "propagación de errores"? No estoy criticando aquí, sólo lamentando la gimnasia lingüística que he experimentado publicando en campos insulares ligeramente diferentes.
0 votos
@Carl: Me refería a lo específico del autor individual. Tienes razón en que las diferentes áreas de la Estadística aplicada tienen sus rarezas terminológicas, pero no creo que ésta sea una de ellas. (En general, no me fío de que los manuales aplicados expliquen bien los conceptos teóricos.
0 votos
@Scortchi La primera vez que lo vi fue por características de los componentes hace 60 años. Lo mismo tenemos en inglés corriente, familias nucleares y familias extensas. Mientras señalemos lo que queremos decir cuando lo decimos, no hay ambigüedad.