Generación de variables aleatorias a partir de una mezcla de distribuciones normales

Question

Generación de variables aleatorias a partir de una mezcla de distribuciones normales

Preguntado el 24 de Septiembre, 2013: Cuando se hizo la pregunta
56303 visitas: Cuantas visitas ha tenido la pregunta
4 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

¿Cómo puedo muestrear de una distribución de mezcla, y en particular de una mezcla de distribuciones Normales en R ? Por ejemplo, si quisiera tomar una muestra de:

$$ 0.3\!\times\mathcal{N}(0,1)\; + \;0.5\!\times\mathcal{N}(10,1)\; + \;0.2\!\times\mathcal{N}(3,.1) $$

¿cómo podría hacerlo?

Preguntado el 24 de Septiembre, 2013 por Usuario no registrado

Answer 1

4 Respuestas

Answer 2

46voto

stateoftraviphilic Puntos 11

Es una buena práctica evitar for bucles en R por razones de rendimiento. Una solución alternativa que aprovecha el hecho rnorm está vectorizado:

N <- 100000

components <- sample(1:3,prob=c(0.3,0.5,0.2),size=N,replace=TRUE)
mus <- c(0,10,3)
sds <- sqrt(c(1,1,0.1))

samples <- rnorm(n=N,mean=mus[components],sd=sds[components])

Respondido el 24 de Septiembre, 2013 por stateoftraviphilic (11 Puntos )

Answer 3

32voto

Usuario no registrado Puntos 0

En general, una de las formas más sencillas de tomar muestras de una distribución de mezcla es la siguiente:

Pasos del algoritmo

1) Generar una variable aleatoria $U\sim\text{Uniform}(0,1)$

2) Si $U\in\left[\sum_{i=1}^kp_{k},\sum_{i=1}^{k+1}p_{k+1}\right)$ intervalo, donde $p_{k}$ corresponden a la probabilidad del $k^{th}$ componente del modelo de mezcla, y luego generar a partir de la distribución del $k^{th}$ componente

3) Repita los pasos 1) y 2) hasta que tenga la cantidad deseada de muestras de la distribución de la mezcla

Ahora, utilizando el algoritmo general dado anteriormente, usted podría muestrear su ejemplo de mezcla de normales utilizando lo siguiente R código:

#The number of samples from the mixture distribution
N = 100000                 

#Sample N random uniforms U
U =runif(N)

#Variable to store the samples from the mixture distribution                                             
rand.samples = rep(NA,N)

#Sampling from the mixture
for(i in 1:N){
    if(U[i]<.3){
        rand.samples[i] = rnorm(1,0,1)
    }else if(U[i]<.8){
        rand.samples[i] = rnorm(1,10,1)
    }else{
        rand.samples[i] = rnorm(1,3,.1)
    }
}

#Density plot of the random samples
plot(density(rand.samples),main="Density Estimate of the Mixture Model")

#Plotting the true density as a sanity check
x = seq(-20,20,.1)
truth = .3*dnorm(x,0,1) + .5*dnorm(x,10,1) + .2*dnorm(x,3,.1)
plot(density(rand.samples),main="Density Estimate of the Mixture Model",ylim=c(0,.2),lwd=2)
lines(x,truth,col="red",lwd=2)

legend("topleft",c("True Density","Estimated Density"),col=c("red","black"),lwd=2)

Que genera:

enter image description here

y como control de cordura:

enter image description here

Respondido el 24 de Septiembre, 2013 por Usuario no registrado (0 Puntos )

Answer 4

9voto

Sean Hanley Puntos 2428

Conceptualmente, sólo está eligiendo una distribución (de $k$ posibilidades) con cierta probabilidad, y luego generar variantes pseudoaleatorias a partir de esa distribución. En R Esto sería (por ejemplo):

set.seed(8)               # this makes the example reproducible
N     = 1000              # this is how many data you want
probs = c(.3,.8)          # these are *cumulative* probabilities; since they 
                          #   necessarily sum to 1, the last would be redundant
dists = runif(N)          # here I'm generating random variates from a uniform
                          #   to select the relevant distribution

# this is where the actual data are generated, it's just some if->then
#   statements, followed by the normal distributions you were interested in
data = vector(length=N)
for(i in 1:N){
  if(dists[i]<probs[1]){
    data[i] = rnorm(1, mean=0, sd=1)
  } else if(dists[i]<probs[2]){
    data[i] = rnorm(1, mean=10, sd=1)
  } else {
    data[i] = rnorm(1, mean=3, sd=.1)
  }
}

# here are a couple of ways of looking at the results
summary(data)
#    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
# -3.2820  0.8443  3.1910  5.5350 10.0700 13.1600 

plot(density(data))

enter image description here

Respondido el 24 de Septiembre, 2013 por Sean Hanley (2428 Puntos )

Answer 5

6voto

Mike Sickler Puntos 6091

Ya se han dado respuestas perfectas, así que para los que quieran lograr esto en Python, aquí está mi solución:

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

mu = [0, 10, 3]
sigma = [1, 1, 1]
p_i = [0.3, 0.5, 0.2]
n = 10000

x = []
for i in range(n):
    z_i = np.argmax(np.random.multinomial(1, p_i))
    x_i = np.random.normal(mu[z_i], sigma[z_i])
    x.append(x_i)

def univariate_normal(x, mean, variance):
    """pdf of the univariate normal distribution."""
    return ((1. / np.sqrt(2 * np.pi * variance)) * 
            np.exp(-(x - mean)**2 / (2 * variance)))

a = np.arange(-7, 18, 0.01)
y = p_i[0] * univariate_normal(a, mean=mu[0], variance=sigma[0]**2) + p_i[1] * univariate_normal(a, mean=mu[1], variance=sigma[0]**2)+ p_i[2] * univariate_normal(a, mean=mu[2], variance=sigma[0]**2)

fig, ax = plt.subplots(figsize=(8, 4))

ax.hist(x, bins=100, density=True)
ax.plot(a, y)

Respondido el 8 de Noviembre, 2019 por Mike Sickler (6091 Puntos )

Generación de variables aleatorias a partir de una mezcla de distribuciones normales

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Generación de variables aleatorias a partir de una mezcla de distribuciones normales

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: