A continuación se muestra un histograma de algunos datos, los bins son enteros los demás parámetros son irrelevantes.
Como puede ver, parece haber dos distribuciones normales separadas pero superpuestas para impar y números pares.
La probabilidad de ser un número par es de 1/3, del mismo modo que 2/3 para un número impar.
No tengo ni idea de la importancia estadística real de esto para ser honesto, así que estoy tratando de averiguar lo que incluso es para aprender más, pero no puedo encontrar nada, he intentado tantos términos de búsqueda para encontrar esto e incluso búsquedas inversas de imágenes, pero todo lo que obtengo es información acerca de las distribuciones multimodales, etc y no puedo encontrar nada acerca de cuando las distribuciones multimodales en realidad se superponen de esta manera
¿Hay un nombre para esto?
Para los interesados, los datos proceden de 1.000.000 de partidas aleatorias de goofspiel (N=13) utilizando el script matlab
N = 1000000;
random = zeros(1,N);
for i = 1 : N
pc = randperm(13);
p1 = randperm(13);
p2 = randperm(13);
random(i) = sum(pc.*sign(p1-p2));
end
histogram(random,'BinMethod','integer')
Un ejemplo más general (aunque artificial) sería el siguiente
a = [1:50 50:-1:1];
b = normpdf(linspace(-2,2),0,0.5).*50;
c = a;
rng('default') %For reproducibility
d = logical(randi([0,1],1,length(a)));
for i = 1:length(c) %There's gotta be a way to do this without an explicit loop
if(d(i))
c(i) = b(i);
end
end
bar(c)
Como en el primer ejemplo, hay dos distribuciones superpuestas (triangular y normal), pero en este caso en lugar de alternarse en cada punto, es aleatoria.
Ya sé que es un ejemplo exagerado (y ni siquiera un histograma), pero tiene que haber ejemplos de este tipo de cosas que ocurran realmente con datos estadísticos, ¿no? Pero tal vez no, o es completamente irrelevante.
La pregunta en sí tiene dos vertientes:
La cuestión general - ¿Cómo se llama este tipo de "cosa", si es que se llama así? - para que yo (o cualquier otra persona que pueda encontrarlo) pueda aprender más sobre él y si es necesario hacer algún ajuste.
La pregunta se refiere específicamente a mi primer conjunto de datos - ¿debo separar los valores Impares y pares o ajustar una distribución normal a todo el conjunto?