6 votos

Prueba de la verosimilitud para dividir una distribución en dos distribuciones independientes

He sido google-ing alrededor, pero no podía encontrar una respuesta a mi pregunta. Cualquier ayuda se agradece.

El ejemplo más sencillo de mi problema es: Imagine que tiene una bolsa de canicas de diferentes colores. Alguien viene y se lleva un 'posiblemente' muestreo aleatorio de X canicas. Alguien llega más tarde y llega a otra de muestreo de canicas. Obviamente las distribuciones de diferentes colores serán diferentes. Estoy buscando una prueba que me puede decir cómo la probabilidad de que estas diferencias se deben a la casualidad, o debido a un muestreo al azar.

En mi real problema es que estoy buscando en el aminoácido distribuciones en múltiples secuencias alineadas. Hemos agrupado a los pacientes en dos grupos (o "intransferible'), basado en parámetros clínicos. Estamos en busca de regiones donde la secuencia de distribuciones son diferentes.

Basado en los comentarios de aquí son un par de detalles más:

Los datos es un conjunto de "letras" sin inherente de pedido, por lo que la mayoría de las pruebas como el KS-test. Hay alrededor de ~600 elementos en cualquiera de 20 colores, hay entre 0 y ~400 elementos de cada color (por lo que la distribución está sesgada). Grupo-1 tiene un muestreo al azar de ~200 artículos y en el Grupo 2 es de ~40.

Mi método actual es hacer una prueba de permutación. Para ello voy a tomar todas las letras de todo el conjunto de secuencias y shuffle. Entonces me tome la primera a la ~200 en el Grupo 1 y el siguiente ~40 en Grupo-2. Me calcular las distribuciones observadas en cada grupo y calcular la distancia Euclídea-distancia entre las distribuciones. Después de ~10,000 shufflings puedo encontrar la probabilidad de obtener una distancia mayor que la observada a distancia.

Obviamente este no es mi ideal de método ... no creo que la Euc-la Distancia es la mejor opción, pero yo no podía pensar en una mejor. Alguna idea sobre que la frontal sería de bienvenida también.

1voto

jws121295 Puntos 36

Si yo se acercaban a esto, añadiría:

Intente utilizar un bosque aleatorio de gradiente impulsado árboles para predecir los pacientes (o las características de los pacientes de interés), basado sólo en los aminoácidos. Estas herramientas de mango categórica entradas. Esto permitiría la reducción de la región de interés a partir de 600 dimensión (o lo que sea) en el orden de 5 a 30 dimensiones. En mucho menor dimensionalidad conjunto de datos que usted podría encontrar más libros de texto enfoques a ser más exitosos.

Referencia: http://www.journalogy.net/Publication/6491785/feature-selection-with-ensembles-artificial-variables-and-redundancyelimination

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X