6 votos

Con una pequeña muestra de una distribución normal, ¿simular el uso de una t de distribución?

Quiero simular los datos de temperatura para algunos "what-if" en los cálculos. El problema es que sólo tengo una serie de tiempo de 10 real de la temperatura de valores de datos. Quiero usar la temperatura como una entrada para la simulación, por lo que necesito una manera de generar un gran número de los valores de temperatura que son consistentes con el original de 10 valores. Es probablemente aceptable asumir que provienen de una distribución normal, pero no sé la media o la varianza.

No tengo manera de probarlo, pero dudo que el 10 valores hacen un buen trabajo representando a todo el rango de temperatura. Si yo uso el sample función para la simulación, como se muestra a continuación, que sólo recibe el original de la vuelta a los valores. Que simplemente no se ve bien. Si yo uso el rnorm función, sé que no sé la varianza, por lo que no creo que es correcto. Así que, me quedo con la rt (función de distribución t).

A continuación es una maqueta del problema.

ori <- rnorm(n=10, mean=65, sd=5) #original 10 data points

num.sam <- sample(x=ori, size=100, replace = TRUE) #simulation using sample
num.tdis <- mean(ori) + (rt(n=100, df=10) * sd(ori)) #simulation using a t distribution

hist(ori, breaks=40:90) 
hist(num.sam, breaks=40:90) 
hist(num.tdis, breaks=40:90) 

Mis preguntas son,

  1. Cuando sólo tengo los datos (media y varianza desconocida), y es razonable suponer que los datos provenían de una distribución normal, que está bien para generar los datos de una simulación a partir de una distribución t?

  2. Para este tipo de situación, la única vez que yo usaría rnorm para la simulación es que si yo sabía de la varianza (no de la varianza estimada de los datos), derecho?

  3. Si una distribución t de simulación es la de aceptar estas condiciones, existen condiciones donde es mejor muestra de los datos (por ejemplo, 100 puntos de datos originales, 200, etc)?

Editar:

  1. Ya he utilizado el original de datos para estimar la media y la varianza, si los grados de libertad en la tercera línea del código ( rt(...)) se reduce de 10 a 9? O 8?

2voto

Eero Puntos 1612

Se podría generar un vector de medios de una distribución normal (o t si se prefiere) que representa su incertidumbre en la media, entonces, generar un vector de desviaciones de una $\chi^2$ distribución de la representación de su incertidumbre en la varianza, generar las observaciones reales de una normal con su vector de medias y el vector de variaciones de los parámetros. Esto se tendrá en cuenta el extra de los niveles de incertidumbre que usted menciona.

Si usted tiene alguna idea de donde crees que la media y/o la varianza debe ser (pero no sé exactamente), entonces usted puede desear intentar un enfoque Bayesiano donde usted puede utilizar esa información previa.

2voto

andynormancx Puntos 234

Utilizando los supuestos que los puntos que provenían de una distribución normal con desconocidos media y la varianza, La distribución T es la correcta distribución de la muestra de que no importa cómo muchos puntos de datos que se tienen, porque es la parte posterior de la distribución predictiva del modelo. Es posible que desee comprobar su fórmula, aunque como se ve un poco más simples de lo que he visto antes.

Para responder a sus preguntas, (1) sí (2) sí, y (3) no.

1voto

Ηλίας Puntos 109

Me gustaría elaborar Neil G y Greg Nieve de las respuestas de la siguiente manera :

  • ejecutar un noninformative inferencia Bayesiana para su original $10$ los valores de los datos
  • utilice la parte posterior de la distribución predictiva para generar nuevos datos

La parte posterior de la distribución predictiva derivados de un noninformative antes de que exactamente tiene como objetivo proporcionar su deseo: una distribución que genera datos ", de acuerdo con los datos originales", teniendo en cuenta la incertidumbre sobre los parámetros del modelo.

Ahora, ¿cuál es la parte posterior de la distribución predictiva derivados de la noninformative antes ? Esto depende de la elección de la noninformative antes, pero hay una buena "default" noninformative previo para el normal modelo de muestra. También puede "engañar" un poco y usar el "Bayesiano-frecuentista" distribución predictiva (también llamado a veces "el frecuentista predictivos de distribución"). El principio de la frecuentista predictivo de la distribución es la siguiente. La clásica $100(1-\alpha)\%$-intervalo de predicción para una nueva observación es $\bar{y} \pm \mathrm{t}^*_{n-1}(\alpha/2) \hat\sigma\sqrt{1+\frac{1}{n}}$. A continuación, el Bayesiano-frecuentista predictivos de distribución es la distribución de $\bar{y} + T \hat\sigma\sqrt{1+\frac{1}{n}}$ donde $\bar{y}$ $\hat\sigma$ son considerados como fijos y $T$ tiene el Estudiante $\mathrm{t}_{n-1}$ distribución. Por lo tanto, el $100(1-\alpha)\%$-cuantil de la frecuentista predictivo de la distribución es igual a la de costumbre, $100(1-\alpha)\%$- superior de predicción de obligado.

Yo exactamente no recuerdo el Bayesiano predictivos de distribución de derivados de la predeterminada noninformative antes, pero está muy cerca de la frecuentista distribución predictiva (hay algunas pequeñas diferencias, tales como las $\mathrm{t}^*_{n-\frac{1}{2}}$ en lugar de $\mathrm{t}^*_{n-1}$). Voy a actualizar mi respuesta cuando me va a encontrar las fórmulas.

Aquí me hizo una pregunta relacionada con el desempeño de estos sistemas de predicción de distribuciones.

Me afirmó que el frecuentista distribución predictiva se deriva de la "pequeña trampa" porque en realidad no se tiene un ancho de su fundación. Pero estoy seguro de que es posible mostrar el rendimiento de la utilización de esta distribución en un frecuentista sentido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X