6 votos

Error sobre la media de las mediciones realizadas a partir de una distribución con una posible cola larga

Estoy utilizando simulaciones de dinámica de Langevin para medir el tiempo de primer impacto de las partículas que abandonan una región en el espacio de parámetros. Me gustaría medir la media del tiempo de primer impacto (y no la mediana, por ejemplo) porque después de hacer algunas suposiciones simplificadoras, puedo calcular la media del tiempo de primer impacto explícitamente (pero no toda la distribución), y quiero comparar esto con los datos para comprobar si esas suposiciones simplificadoras me sitúan en el terreno de juego correcto.

Mi problema es que el tiempo medio de primer impacto medido a partir de mi simulación parece aumentar con el tiempo de ejecución (más tiempo significa más trayectorias/muestras utilizadas en el cálculo de esta media). Entre una ejecución de longitud $T$ y una carrera de longitud $\sim 1.2T$ la media aumentó en más de 3 errores estándar. Existe un aumento similar entre una carrera de longitud $\sim 0.8T$ y $T$ . Así pues, la cola de la distribución empírica parece afectar a la media, y parece haber una subestimación sistemática tanto de la media como del error típico, lo que me hizo pensar en una distribución de colas largas. Sin embargo, teóricamente es imposible que un conjunto de trayectorias de medida distinta de cero permanezca dentro de la región para siempre, por lo que el tiempo medio de salida debe ser finito.

El histograma de mis muestras actuales tiene este aspecto, la media es ~1,4: enter image description here

Mi capacidad de cálculo es limitada en cuanto al tiempo que puedo ejecutar la simulación. Espero que, si sigo realizando simulaciones, la media alcance algún valor asintóticamente, pero esto aún no es visible en mis muestras actuales. Dados los datos que tengo, ¿hay alguna forma de generar los intervalos de confianza de mi media actual para garantizar que este valor asintótico se incluye en el intervalo?

Algunos detalles más sobre la simulación/sistema: La región de la que escapan las partículas no es homogénea y tiene otros ocupantes, por lo que teóricamente es una caja negra en la que no se puede hacer mucho teóricamente aparte de las pocas suposiciones simplificadoras que estoy intentando probar. Múltiples partículas están escapando al mismo tiempo, sin embargo interactúan mínimamente entre sí y su densidad dentro de la región es baja, por lo que las posibilidades de encontrarse con otra partícula son bajas. Por lo tanto, los tiempos de salida de dos partículas no son exactamente independientes, pero cualquier correlación entre los tiempos de dos partículas será extremadamente débil. El sistema también está en estado estacionario, por lo que en promedio hay el mismo número de partículas dentro de la región para todos los tiempos.

1 votos

¿Podría explicar cómo genera esta cantidad? Imagino que tiene que ser indirectamente. Si se generara directamente en una simulación tendrías que seleccionar aleatoriamente de una distribución "conocida".

0 votos

La cantidad es el tiempo que tarda un sistema en salir de una región del espacio después de haber entrado (tiempo de primer impacto). Durante la simulación, varios sistemas deambulan hasta entrar y salir de esta región, lo que genera las muestras.

0 votos

¿Las muestras son iid? ¿Son independientes?

1voto

F. Hauri Puntos 663

La diferencia de las medias empíricas de dos conjuntos de muestras bien podría ser mayor que el error típico de la media. Asintóticamente, el error típico define un intervalo de confianza hasta el nivel 0,67 aproximadamente. Si la distribución tiene colas largas y la media muestral es inestable, la desviación típica de la muestra debería ser grande. Mientras la distribución subyacente tenga una media y una varianza bien definidas, las cosas deberían funcionar más o menos bien. Por último, si la media de la muestra es inestable, quizá tenga más sentido estimar y notificar una medida de localización más sólida, como la mediana.

0 votos

La diferencia de las medias empíricas de dos conjuntos de muestras bien podría ser mayor que el error típico de la media, pero no es posible que la media estimada siga creciendo a medida que se añaden más muestras, a menos que la media sea infinita, que parece ser el caso aquí. Véase mi respuesta para más detalles.

1 votos

Estoy de acuerdo, y por eso he votado por tu respuesta. Nótese que el OP editó sus respuestas y amplió su descripción después de que yo diera mi respuesta.

1voto

papiaud Puntos 1

Creo que la respuesta a tu problema puede estar más relacionada con tu campo de estudio (digamos, dinámica molecular) que con la estadística. La estadística se ocupa de la distribución de probabilidad de variables aleatorias y, no importa cuál sea su distribución, para aplicar el teorema central del límite, para hacer inferencias sobre la población (con muestras grandes). Sin embargo, puesto que ha mencionado que dicha simulación no funciona en su caso con la media cambiando aleatoriamente cada vez, es muy posible que el "tiempo pasado en la región" sea una variable aleatoria sin media finita en absoluto (por ejemplo, una distribución aleatoria normal supone que, aunque la variable sea aleatoria, la variable tenderá hacia un valor central, es decir, la media, como ocurre con otras distribuciones estándar conocidas que imitan algún fenómeno natural). Pero si la variable "tiempo empleado" es completamente aleatoria, cuyo valor se ve afectado por otras variables de su modelo, no puede esperar "ningún valor medio" sea cual sea el tiempo empleado en la simulación. Por ejemplo, el movimiento de los precios de las acciones en un intervalo de tiempo es completamente aleatorio por naturaleza, y no puede modelizarse bajo ninguna distribución de probabilidad conocida y no puede tener ninguna media relacionada con él.

Sin embargo, si tu teoría indica que debería haber una media finita para el tiempo transcurrido (lo que intuyo muy improbable para los movimientos moleculares) y si estás seguro de ello, entonces deberías trabajar en averiguar la función de distribución y sus funciones generadoras de momentos, etc., para llegar a la función media.

Nota: Si la media finita es una posibilidad teórica segura, otro método estadísticamente sólido para estimar la media son los métodos de estimación MLE (especialmente en el paradigma de la ciencia de datos). Pero los métodos MLE, que estiman los parámetros de la población, requieren obligatoriamente una suposición sobre la naturaleza de la distribución de la población y su función de densidad (que no es necesaria para la estadística inferencial basada en CLT que hace inferencias sobre la muestra). Pero podría haber otras técnicas disponibles en el paradigma de la ciencia de datos, que podrían estimar los parámetros de la población, pero pueden depender de algoritmos cuantitativos y computacionalmente intensivos.

1voto

brethvoice Puntos 137

El comportamiento de que la media siga aumentando cuando se añaden más muestras, suele significar que el tiempo medio es infinito. Por ejemplo, podría encontrarse ante un distribución de pareto con $\alpha\le 1$ .

Puede que no te encuentres exactamente ante esta distribución, pero es el ejemplo más estándar de una distribución bastante simple con media infinita, así que merece la pena echarle un vistazo; y tendrá el mismo comportamiento que estás describiendo: sólo toma valores finitos (mayoritariamente 1 o ligeramente por encima) por lo que la media de cualquier muestra finita será finita, pero crecerá a medida que crezca el número de muestras.

Para reforzar mi argumento, explicaré por qué su "espero que si siguiera haciendo simulaciones, la media alcanzaría algún valor asintóticamente" es erróneo. Supongamos que su media después de la primera $n$ simulaciones es $\mu_1$ y después de la primera $2n$ simulaciones es $\mu_2<\mu_1$ . Entonces, la media entre simulaciones $n+1,\ldots,2n$ fue $\mu_3=2\mu_2-\mu_1<\mu_2$ lo que significa que tenemos $\mu_3<\mu_2<\mu_1$ . Sin embargo, como sus simulaciones son independientes, $E[\mu_3]=E[\mu_1]$ por lo que no se puede encontrar este comportamiento de forma consistente si la media fuera finita y bien definida.

0voto

Rex Puntos 11

EDITAR:

Si la media cambia significativamente cuando añades más datos, puede que no tengas una media finita o que no sea unimodal. hist(c(rnorm(100, 0, 1) + rnorm(100, 3, 1)))`. Pero supongo que ya habrás hecho un histograma de tus datos o habrás podido visualizarlo. Así que esto es lo que yo haría 1.) Calcula la media con un número creciente de muestras de datos. Cuantas más puedas hacer, mejor, pero haz sólo lo que sea factible. 2.) Mira a ver si las medias siguen algún tipo de serie infinita que converge. Tal vez una serie geométrica, una serie p o algo parecido. Si puedes encontrar que la media sigue algún tipo de patrón como $const.\frac{n}{n+1}$ sería sencillo. Aunque tu media suba y baje y no parezca seguir un patrón, puede que tengas $-1^{i}$ en la secuencia o algo similar.

Espero que esto se acerque un poco más a lo que estabas buscando.

Cuando dices simulaciones, supongo que estás realizando simulaciones Monte Carlo o construyendo muestras bootstrap. En cualquier caso, esto es lo que debe hacer. 1. ejecutar b simulaciones 2. durante cada b simulación, extraiga una muestra aleatoria del tamaño del conjunto de datos con reemplazo. 3. 3. Calcular la media de la muestra extraída. 4. La simulación se ha completado y ahora tienes una matriz con b medias muestrales. Tome la media de esa matriz y esta es su media. También puede crear regiones creíbles (cuando realiza una simulación ya no se aplican intervalos de confianza porque sus regiones son empíricas).

B <- 1000
n <- dim(data)[1]
ind <- seq_len(n)
means_vector <- double(B)
for ( b in seq_len(B)) {
    rand_samp <- sample(ind, n, replace = TRUE)
means_vector[B] <- mean(data[rand_samp])
}
mean(means_vector)
quantile(means_vector, c(0.25, 0.975))

Este es el método bootstrap. Es bastante simple, y hay una función R "boot()" que hará las cosas locamente rápido.

0 votos

No estoy seguro de entender en qué se diferencia esto de lo que hago actualmente. En realidad, estoy realizando simulaciones de dinámica molecular, y cuanto más tiempo las ejecute, mayor será mi conjunto de datos. Mi problema actual es que a medida que aumenta mi conjunto de datos, mi media sube, presumiblemente porque mi conjunto de datos incluye más muestras de la cola larga de la distribución. No estoy seguro de cómo el bootstrap dentro del conjunto de datos que tengo actualmente se encargará de la larga cola.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X