Estoy haciendo unas simulaciones y el cliente me ha dicho que una variable debe oscilar entre -20 y +65 con una media de 30. Evidentemente, no puede ser normal, pero debería tener una forma de campana aproximada.
Más adelante, tendré que simular datos con una media, un mínimo y un máximo algo diferentes.
¿Cuáles son las buenas maneras de hacerlo?
Estoy utilizando SAS pero también tengo acceso a R.
AÑADIR DETALLES: Este es el porcentaje de ataques epilépticos que no son reportados por el paciente. Estoy calculando cuánto afecta esto a la potencia en los ensayos.
1 votos
¿Qué hay que hacer con los datos? Mi opción por defecto para el muestreo con restricciones suele ser utilizar stan (Rstan), ya que normalmente también necesito realizar algún tipo de modelado con las muestras a lo largo del proceso... Para tu problema, puedes escribir el programa para que lea los mínimos y los límites como datos, así podrás usar el mismo programa una y otra vez.
3 votos
En algunos campos -especialmente en la gestión de proyectos y en todo lo que tocan los consultores empresariales con un conocimiento imperfecto de la modelización estadística- un distribución triangular se utiliza de forma rutinaria. Como seguro que sabes, la forma de la distribución debería estar determinada por qué que estás simulando. También podrías hacerle un favor a tu cliente incluyendo algunos valores fuera del rango, a menos que sean físicamente imposibles, porque la mayoría de la gente es demasiado conservadora en sus estimaciones de rango.
2 votos
¿Podría aclarar cómo los números que van desde $-20$ a $65$ podría ser proporciones de algo?
0 votos
Algunas personas se pierden episodios, otras informan de episodios que no se produjeron
0 votos
Si tienes acceso a matlab, se puede hacer utilizando las cajas de herramientas de simulink, por lo que sé.
0 votos
Pero esos números no son claramente proporciones, que típicamente estarían en el intervalo $[-1,1]$ . ¿Son recuentos o porcentajes o algo más? En cualquier caso, empieza a parecer que la distribución debería estar condicionada por el número de incautaciones en lugar de ser una distribución fija.
0 votos
Son porcentajes. Lo siento por eso.
0 votos
¿Hay datos preexistentes a partir de los cuales puedas hacer un bootstrap o conjeturar la forma general de la distribución, o estás volando completamente a ciegas?
1 votos
No, no hay datos preexistentes. Me sorprendió lo poco que se sabe de estos datos.
1 votos
1. Tenga en cuenta que porcentaje de convulsiones no comunicadas por el paciente no puede ser negativo, y sin embargo la cantidad real toma valores negativos, por lo que la afirmación del final de la pregunta debe ser errónea. 2. ¿Es la intención que un muestra tienen el mínimo, el máximo y la media especificados, o que el distribución ¿tienen el mínimo, el máximo y la media especificados, aunque el mínimo y el máximo no aparezcan nunca en una muestra? 3. ¿Se pretende que la distribución sea discreta (31, 6, -2) o continua (31,357..., 6,0342...)?
1 votos
Admito que todavía no tengo claro por qué el valor puede ser negativo también, pero tiene algo que ver con la posibilidad de que se pierdan episodios y se informen de más. Secretamente esperaba que los valores negativos fueran incorrectos para poder utilizar una distribución bien conocida.
0 votos
El valor podría ser negativo porque (aparentemente) algunas personas informan de episodios que no se produjeron realmente.
1 votos
¿Por qué no pedirle al cliente que le dé su intuición sobre (a) la tasa de convulsiones, (b) la tasa de informes de convulsiones, y luego simular esta variable latente a partir de dos distribuciones de Poisson?