4 votos

Comparación de grandes conjuntos de datos categóricos con bajos o cero cuentas

Estoy lidiando con una característica biológica que pueden ser clasificados en $2^{20}$ categorías. También tengo dos bastante grandes conjuntos de datos de 1 y 3 millones de entradas. De hecho, sólo alrededor de 30 mil categorías se observaron en el último, y aún menos en el primero. Por lo tanto, un montón de categorías tienen cero de la cuenta, y algunos tienen más bien pequeños.

Me gustaría saber si las muestras provienen de diferentes poblaciones, es decir, comparar la mencionada característica de las distribuciones. La única prueba que puedo pensar es de Pearson $\chi^2$, que es (a mi conocimiento) no es aplicable en el caso de los recuentos bajos.

Cualquier consejo (incluyendo la literatura sobre el tema) se agradece.

1voto

OpenAndroid Puntos 116

Yo no entiendo completamente el problema, pero quiero saber si esto está en el camino correcto y puedo conseguir que un poco más de feedback. Creo que de $2^{20}$ como el número de palabras en un diccionario. Te doy dos libros, uno que tiene 1 millón de palabras que contienen 30000 únicos del diccionario y el otro que contiene 3 millones de palabras y (decir) 35000 únicos del diccionario. Os doy un nuevo conjunto de palabras (¿es esto lo que usted quiere decir por 'ejemplo'?') y quiero saber cuál es el libro que vino?

Si este es el caso..buscar clasificador Naive Bayes. Es el más simple que existe. Se asume independencia condicional (dado el libro, las palabras son independientes). No se Que hace exactamente esto. Hay una gran cantidad de software que se ajuste a estos modelos para ti. Todos ellos tienen el problema de cero o muy pequeña cuenta. Ellos usan una revisión en torno a este problema. Un punto a tener en cuenta que en estos modelos, no es un fail safe..como en lo que si observo una palabra que no he visto hasta ahora (es decir, uno nuevo de la $2^{20}$). Llaman la probabilidad de observar esta probabilidad de 'descanso'. Esto significa que todos los que no se observan en la formación de la muestra va a caer en el resto.

La precisión, por lo general cae en el 60% del rango de medida como la predicción va. No es fantástico, pero es un comienzo. Existen modelos más complejos (buscar Lexicalizar PCFGs si usted piensa que se adapte a usted mejor, aunque estos son muy específicas en el contexto). Te sugiero encarecidamente el uso de pre-escrito de software en caso de que quiera utilizar estos modelos y frenar el comúnmente observados ganas de código de seguridad de estos problemas de programación dinámica.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X