2 votos

¿Distribución de probabilidad parametrizada para valores finitos y discretos?

Disculpe si no tengo la terminología adecuada para plantear esta pregunta de una buena manera...

Tengo curiosidad por saber si existe una función de distribución establecida para el siguiente caso:

Tengo 20 opciones diferentes, indexadas del 1 al 20, de las que haré repetidos sorteos al azar. Los sorteos se hacen una vez y luego las 20 opciones diferentes se reinician inmediatamente y se pueden volver a sortear en la siguiente ronda.

Imaginemos que tengo fotos de 20 tipos de fruta diferentes colocadas sobre una mesa y que de vez en cuando elijo una de las fotos, tomo nota de ella y vuelvo a colocar la foto en la mesa.

Quiero que algunas frutas tengan más posibilidades de ser recogidas que otras. Dispondré mis frutas de manera que, por defecto, las frutas del centro de la mesa sean más probables que las frutas de los lados de la mesa. Sin embargo, esta distribución de probabilidad debe ser controlada por un parámetro. De manera que paso a paso pueda aumentar la probabilidad de que las frutas de un lado de la mesa sean recogidas a expensas de las frutas situadas en el centro o en el lado opuesto de la mesa.

He jugado con algunos gráficos interactivos de la distribución beta para valores continuos. Y me gusta cómo soy capaz de controlar la función de probabilidad con los parámetros a & b (ver ejemplos abajo).

Lo que quiero saber es lo siguiente... ¿existe una forma común de manejar la distribución entre un conjunto conocido de 20 valores discretos indexados de forma que las probabilidades entre ellos (índices bajos, medios y altos) varíen de forma similar a como se mueven los valores de la gráfica de las funciones de distribución beta cuando se manipulan los parámetros a y b.

Lo ideal sería que el valor de retorno de la función fuera una probabilidad entre 0 y 1, dado un parámetro que indique uno de los valores discretos (1...20) y un parámetro que controle dónde debe estar el peso de la distribución entre los 20 valores diferentes.

Lo ideal es que la suma de las 20 distribuciones discretas siempre sume 1 si se suman.

Example of a Beta distribution Conceptual sketch of a distribution for discrete values.

2voto

jldugger Puntos 7490

Un enfoque consiste en discretizar una familia continua.

Aunque el instinto de uno podría ser escoger los valores de la probabilidad densidad a intervalos pares, lo que se complica por la necesidad de convertir esas densidades en probabilidades, lo que requiere sumarlas por un factor de normalización. Una forma mejor es tallar el soporte de la distribución en intervalos iguales (que correspondan a sus puntos de datos) y calcular el probabilidad total en cada intervalo.

En abstracto, esta receta dice que cuando $\{F_\theta\mid \theta\in\Theta\}$ es una familia de distribuciones (representadas por sus funciones de distribución acumulativa) parametrizada por $\theta\in\Theta$ apoyado en un intervalo $[l,u],$ se puede discretizar en una familia de distribuciones soportadas en cualquier secuencia de $d\ge 1$ valores a través de

$$p_\theta(x) = F_\theta\left(l + (u-l)\frac{x}{d}\right) - F_\theta\left(l + (u-l)\frac{x-1}{d}\right)$$

para $x=1,2,\ldots, d.$

Proporcionado $d$ supera la dimensión de $\Theta,$ normalmente todas estas distribuciones discretas son distintas. Sus formas reflejan claramente las formas de sus funciones de densidad madre.

Lo ilustraré con la familia Beta, donde $[a,b]=[0,1]$ y $\theta=(a,b)$ contiene parámetros positivos. Esta figura muestra las distribuciones para $16$ valores de $\theta.$

Figure

Estos son gráficos de barras de funciones de masa de probabilidad, y no histogramas de densidades de probabilidad. Las alturas de las barras indican las probabilidades asociadas al $x$ valores por debajo de ellos. Así, la suma de los $d=20$ alturas en cada gráfico es exactamente $1,$ como se requiere de cualquier función de masa de probabilidad. (Para ayudarte a ver esto, aparece una línea de puntos horizontal a una altura de $1/d$ en cada gráfico: debe ser la media de las alturas de las barras).

El R código que creó la figura muestra lo fácil que es aplicar este enfoque. Después de crear un marco de datos para los valores de $x$ y algunas elecciones de parámetros $(a,b),$ una sola línea calcula las probabilidades discretas. No se necesita ningún otro cálculo.

d <- 20
X <- expand.grid(x = seq_len(d),
                 a = c(1/2, 1, 3, 6),
                 b = c(3/4, 1, 2, 6))
X$Probability <- with(X, pbeta(x/d, a, b) - pbeta((x-1)/d, a, b))

El trazado se realiza con un ggplot2 como en

library(ggplot2)
ggplot(X, aes(x, Probability)) + geom_col() + facet_grid(a ~ b)

(He omitido los comandos decorativos como los colores y el título).


La pregunta se refiere al muestreo de esta distribución discreta. Esto es tan fácil (o difícil) como tomar muestras de su padre. Si tienes un procedimiento que genera valores aleatorios $Y$ según $F_\theta$ (para cualquier $\theta$ ), entonces la variable aleatoria

$$X = \lceil \frac{d(Y-l)}{u-l} \rceil$$

casi seguramente tiene valores en el conjunto $\{1,2,\ldots, d\}$ y tiene $p_\theta$ para su distribución.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X