He sido google-ing alrededor, pero no podía encontrar una respuesta a mi pregunta. Cualquier ayuda se agradece.
El ejemplo más sencillo de mi problema es: Imagine que tiene una bolsa de canicas de diferentes colores. Alguien viene y se lleva un 'posiblemente' muestreo aleatorio de X canicas. Alguien llega más tarde y llega a otra de muestreo de canicas. Obviamente las distribuciones de diferentes colores serán diferentes. Estoy buscando una prueba que me puede decir cómo la probabilidad de que estas diferencias se deben a la casualidad, o debido a un muestreo al azar.
En mi real problema es que estoy buscando en el aminoácido distribuciones en múltiples secuencias alineadas. Hemos agrupado a los pacientes en dos grupos (o "intransferible'), basado en parámetros clínicos. Estamos en busca de regiones donde la secuencia de distribuciones son diferentes.
Basado en los comentarios de aquí son un par de detalles más:
Los datos es un conjunto de "letras" sin inherente de pedido, por lo que la mayoría de las pruebas como el KS-test. Hay alrededor de ~600 elementos en cualquiera de 20 colores, hay entre 0 y ~400 elementos de cada color (por lo que la distribución está sesgada). Grupo-1 tiene un muestreo al azar de ~200 artículos y en el Grupo 2 es de ~40.
Mi método actual es hacer una prueba de permutación. Para ello voy a tomar todas las letras de todo el conjunto de secuencias y shuffle. Entonces me tome la primera a la ~200 en el Grupo 1 y el siguiente ~40 en Grupo-2. Me calcular las distribuciones observadas en cada grupo y calcular la distancia Euclídea-distancia entre las distribuciones. Después de ~10,000 shufflings puedo encontrar la probabilidad de obtener una distancia mayor que la observada a distancia.
Obviamente este no es mi ideal de método ... no creo que la Euc-la Distancia es la mejor opción, pero yo no podía pensar en una mejor. Alguna idea sobre que la frontal sería de bienvenida también.