12 votos

¿Cómo se llama este "fenómeno"?

A continuación se muestra un histograma de algunos datos, los bins son enteros los demás parámetros son irrelevantes.

Overlapping distributions

Como puede ver, parece haber dos distribuciones normales separadas pero superpuestas para impar y números pares.

La probabilidad de ser un número par es de 1/3, del mismo modo que 2/3 para un número impar.

No tengo ni idea de la importancia estadística real de esto para ser honesto, así que estoy tratando de averiguar lo que incluso es para aprender más, pero no puedo encontrar nada, he intentado tantos términos de búsqueda para encontrar esto e incluso búsquedas inversas de imágenes, pero todo lo que obtengo es información acerca de las distribuciones multimodales, etc y no puedo encontrar nada acerca de cuando las distribuciones multimodales en realidad se superponen de esta manera

¿Hay un nombre para esto?

Para los interesados, los datos proceden de 1.000.000 de partidas aleatorias de goofspiel (N=13) utilizando el script matlab

N = 1000000;
random = zeros(1,N);
for i = 1 : N
    pc = randperm(13);
    p1 = randperm(13);
    p2 = randperm(13);
    random(i) = sum(pc.*sign(p1-p2));
end
histogram(random,'BinMethod','integer')

Un ejemplo más general (aunque artificial) sería el siguiente

a = [1:50 50:-1:1];
b = normpdf(linspace(-2,2),0,0.5).*50;
c = a;
rng('default') %For reproducibility
d = logical(randi([0,1],1,length(a)));
for i = 1:length(c) %There's gotta be a way to do this without an explicit loop
    if(d(i)) 
        c(i) = b(i);
    end
end
bar(c)

General Example

Como en el primer ejemplo, hay dos distribuciones superpuestas (triangular y normal), pero en este caso en lugar de alternarse en cada punto, es aleatoria.

Ya sé que es un ejemplo exagerado (y ni siquiera un histograma), pero tiene que haber ejemplos de este tipo de cosas que ocurran realmente con datos estadísticos, ¿no? Pero tal vez no, o es completamente irrelevante.

La pregunta en sí tiene dos vertientes:
La cuestión general - ¿Cómo se llama este tipo de "cosa", si es que se llama así? - para que yo (o cualquier otra persona que pueda encontrarlo) pueda aprender más sobre él y si es necesario hacer algún ajuste.
La pregunta se refiere específicamente a mi primer conjunto de datos - ¿debo separar los valores Impares y pares o ajustar una distribución normal a todo el conjunto?

8voto

user164061 Puntos 281

Esta respuesta no es una respuesta directa a su pregunta, porque se refiere a una causa diferente del patrón.

Pero tiene que ver con el mismo aspecto gráfico, y por eso lo pongo como respuesta y no como comentario (antes de leer tu script de Matlab pensaba que el patrón de tu histograma se debía a esta causa diferente).


Su pregunta me hizo volver a ver un histograma que tracé en un responder a una pregunta reciente.

old illustration

Utilicé binsize 1, mientras que la distancia entre los resultados (discretos) fue de 0,538. Haciendo que las barras del histograma se trazaran ocasionalmente con los recuentos de un solo valor en lugar de los recuentos de dos valores.

Después de ajustar el tamaño de las casillas, el histograma parecía más típico.

new illustration

En este caso, podríamos llamar al patrón Moaré que es la aparición de bandas claras y oscuras artificiales debidas a una desalineación de dos escalas discretas.

En su caso, sin embargo, el patrón periódico no es un efecto artificial en el histograma, sino un comportamiento verdaderamente periódico en la función de masa de probabilidad. De todos modos, me pareció útil mencionar este patrón de Moiré relacionado.

4voto

Assembler Puntos 545

ACTUALIZACIÓN: Releyendo esto cuatro años después, permítanme intentar responder también a la primera parte, cómo llamarlo. Si se debe a dos distribuciones distintas, como sugiero a continuación, la combinación se denomina distribución de la mezcla Oigo más a menudo el término modelo mixto que es lo que usaríamos para modelarlo. Si es un artefacto de cómo se muestran los datos gráficamente, la otra respuesta menciona el patrón moiré. ¿O simplemente un artefacto visual? Y en los comentarios, whuber lo llama aliasing que creo que es la que más me gusta.


¿debo separar los valores Impares y pares o ajustar una distribución normal a todo el conjunto?

Creo que deberías separarlos. Tu análisis ha descubierto que el factor/predictor más importante es si la entrada es impar o par, por lo que fusionarlas sería difuminar ambas distribuciones, y hacerlas menos útiles (*).

*: Por supuesto, realmente depende de tu definición de útil. Yo lo enfoco desde el punto de vista de que tienes algunas entradas y quieres hacer un modelo para predecir alguna salida. Una vez que sabemos que es significativo, me gustaría dar al modelo la pista de que la paridad de una/algunas de las entradas importa.

Por cierto, como en la respuesta de Martijn Weterings, cuando he tenido histogramas dentados como este antes, ha estado relacionado con la elección del tamaño de la bandeja. Esto me ha hecho darme cuenta de que la experimentación con el tamaño de los contenedores es una herramienta más de la caja de herramientas de mentir con estadísticas :-)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X