16 votos

Algunas preguntas sobre la aleatoriedad estadística

De aleatoriedad estadística de Wikipedia:

La aleatoriedad global y la aleatoriedad local son diferentes. La mayoría de las concepciones filosóficas de la aleatoriedad son globales, ya que se basan en la idea de que "a largo plazo" una secuencia parece verdaderamente aleatoria, incluso si ciertas subsecuencias no parecerían aleatorias. En una secuencia "verdaderamente" aleatoria de números de longitud suficiente, por ejemplo, es probable que haya largas secuencias de nada más que ceros, aunque en su conjunto la secuencia podría ser aleatoria. La aleatoriedad local se refiere a la idea de que puede haber longitudes mínimas de secuencia en las que se aproximen las distribuciones aleatorias. Largos tramos de los mismos dígitos, incluso aquellos generados por procesos "verdaderamente" aleatorios, disminuirían la "aleatoriedad local" de una muestra (podría ser solo localmente aleatoria para secuencias de 10,000 dígitos; tomar secuencias de menos de 1,000 podría no parecer aleatorio en absoluto, por ejemplo).

Una secuencia que exhibe un patrón no queda por ello demostrada no aleatoria estadísticamente. Según los principios de la teoría de Ramsey, objetos lo suficientemente grandes necesariamente deben contener una subestructura dada ("el desorden completo es imposible").

No entiendo del todo los significados de las dos oraciones en negrita.

  1. ¿La primera oración significa que algo hace que una secuencia sea aleatoria local en una longitud más larga, y no aleatoria local en una longitud más corta?

    ¿Cómo funciona el ejemplo dentro de los paréntesis?

  2. ¿La segunda oración significa que una secuencia que exhibe un patrón no puede ser demostrada como no aleatoria estadísticamente? ¿Por qué?

Gracias

16voto

jldugger Puntos 7490

El concepto puede ilustrarse claramente con un poco de código ejecutable. Comenzamos (en R) usando un buen generador de números pseudoaleatorios para crear una secuencia de 10,000 ceros y unos:

set.seed(17)
x <- floor(runif(10000, min=0, max=2))

Esto pasa algunas pruebas básicas de números aleatorios. Por ejemplo, una prueba t para comparar la media con $1/2$ tiene un valor p de $40.09$%, lo que nos permite aceptar la hipótesis de que los ceros y unos son igualmente probables.

A partir de estos números procedemos a extraer una subsecuencia de $1000$ valores sucesivos comenzando en el valor 5081:

x0 <- x[1:1000 + 5080]

Si estos se ven aleatorios, también deberían pasar las mismas pruebas de números aleatorios. Por ejemplo, veamos si su media es 1/2:

> t.test(x0-1/2)

    Prueba t de una muestra

datos:  x0 - 1/2 
t = 2.6005, df = 999, valor p = 0.009445
hipótesis alternativa: la media verdadera no es igual a 0 
intervalo de confianza del 95 por ciento:
 0.01006167 0.07193833 
estimaciones de muestra:
mean of x 
    0.041 

El valor p bajo (menos del 1%) sugiere fuertemente que la media es significativamente mayor que $1/2$. De hecho, la suma acumulativa de esta subsecuencia tiene una fuerte tendencia ascendente:

> plot(cumsum(x0-1/2))

¿Caminata aleatoria?

¡Eso no es un comportamiento aleatorio!

Comparando la secuencia original (representada como una suma acumulativa) con esta subsecuencia revela lo que está sucediendo:

Caminata aleatoria

La larga secuencia en efecto se comporta como una caminata aleatoria--como debería--pero la subsecuencia particular que extraje contiene la mayor subida entre todas las subsecuencias de la misma longitud. Parece que podría haber extraído algunas otras subsecuencias que exhiben comportamientos "no aleatorios", como la que se centra alrededor de $9000$ ¡donde aproximadamente 20 unos seguidos aparecen!


Como han demostrado estos simples análisis, ninguna prueba puede "demostrar" que una secuencia parece aleatoria. Todo lo que podemos hacer es probar si las secuencias se desvían lo suficiente de los comportamientos esperados de las secuencias aleatorias para ofrecer evidencia de que no son aleatorias. Así es como funcionan los conjuntos de pruebas de números aleatorios: buscan patrones altamente improbables de surgir en secuencias de números aleatorios. De vez en cuando nos llevarán a concluir que una secuencia verdaderamente aleatoria de números no parece aleatoria: la rechazaremos y probaremos algo más.

A la larga, sin embargo--así como todos morimos--cualquier generador de números realmente aleatorios generará cada posible secuencia de 1000 dígitos, y lo hará infinitas veces. Lo que nos rescata de un dilema lógico es que tendríamos que esperar un tiempo muy largo para que ocurra tal aberración aparente.

2voto

Udi Pintar Puntos 11

Este fragmento utiliza los términos "aleatoriedad local" y "aleatoriedad global" para distinguir entre lo que puede ocurrir con un número finito de muestras de una variable aleatoria y la distribución de probabilidad o esperanza de una variable aleatoria.

Por ejemplo, ensayos repetidos $x_i$ de una variable aleatoria de Bernoulli (que toma valores en $\{0,1\}$) con esperanza $\theta$, producirá, a medida que el número de muestras se acerca a infinito, una media muestral de $\theta$. Es decir, $\lim_{n \to \infty} \frac{1}{n} \sum_{i=1}^n x_i = \theta$. Esto se deriva de la ley de los grandes números.

Sin embargo, al evaluar la media muestral para muestras finitas obtendremos todo tipo de valores en $[0,1]$. De hecho, existe una probabilidad finita de que la media muestral caiga en el rango $[a,b]$ para cualquier $0 \leq a < b \leq 1$ para cualquier valor de $\theta.

No hay nada nuevo aquí.

Sin embargo, este fragmento parece hacer el punto bastante obvio de que cuanto mayor sea $n$, más probable es que veamos un comportamiento que parece "aleatorio localmente" con "aleatoriedad local" definida (incorrectamente) como exhibir patrones que se acercan a la media (en este ejemplo).

Por lo tanto, no gastaría demasiadas células cerebrales pensando en este fragmento. No es matemáticamente tan preciso y en realidad es engañoso acerca de la naturaleza de la aleatoriedad.

Editar basado en comentario: @kjetilbhalvorsen +1 a tu comentario por el conocimiento histórico. Sin embargo, sigo pensando que el valor de estos términos es limitado y engañoso. Las tablas que estás describiendo parecen insinuar de manera engañosa que muestras pequeñas que tienen, por ejemplo, una media muestral lejos del valor esperado real o quizás una secuencia larga improbable pero ciertamente posible de repeticiones de 0 (en mi ejemplo de Bernoulli), de alguna manera exhiben menos aleatoriedad (al decir que no muestran esta "aleatoriedad local" falsa). ¡No puedo pensar en nada más engañoso para el estadístico principiante!

-1voto

dicroce Puntos 11988

Creo que los autores de la publicación de Wikipedia están tergiversando la aleatoriedad. Sí, puede haber segmentos que parezcan no ser aleatorios, pero si el proceso que creó la secuencia es verdaderamente aleatorio, también debe ser la salida. Si ciertas secuencias parecen no ser aleatorias, esa es una percepción errónea del lector (es decir, los humanos están diseñados para encontrar patrones). Nuestra capacidad para ver la Osa Mayor, y Orión, etc., en el cielo nocturno no es evidencia de que los patrones de estrellas sean no aleatorios. Estoy de acuerdo en que la aleatoriedad a menudo parece no aleatoria. Si un proceso genera patrones verdaderamente no aleatorios para secuencias cortas, no es un proceso aleatorio.

No creo que el proceso cambie con diferentes tamaños de muestra. Aumentas el tamaño de la muestra, aumentas la probabilidad de que veamos una secuencia aleatoria que nos parezca no aleatoria. Si hay un 10% de probabilidad de que veamos un patrón en 20 observaciones aleatorias, aumentar el número total de observaciones a 10000 aumentaría la probabilidad de que veríamos no aleatoriedad en alguna parte.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X