8 votos

Ingenuo-clasificador de Bayes para la desigualdad de los grupos de

Estoy usando el clasificador naive bayes para clasificar entre los dos grupos de datos. Un grupo de los datos es mucho más grande que el otro (por encima de 4 veces). Estoy usando la probabilidad anterior de cada grupo en el clasificador.

El problema es que el resultado que obtengo tiene 0% de verdaderos positivos y la tasa de 0% de falsos positivos. Tengo los mismos resultados cuando pongo el antes de 0.5 y 0.5 .

Cómo puedo configurar mi umbral de algo mejor para que yo pudiera conseguir un mayor equilibrio en los resultados?

He tenido un problema similar cuando se utiliza la Regresión Logística clasificador. Lo resuelto por la restando el anterior plazo de bias.

Cuando yo uso el Discriminante Lineal de Fisher en estos datos, puedo obtener buenos resultados con el límite fijado en el medio.

Supongo que hay alguna solución común a este problema, yo no lo podía encontrar.

ACTUALIZACIÓN: acabo de notar que tengo el clasificador es el sobreajuste. El rendimiento en el conjunto de entrenamiento es perfecta (100% de respuestas correctas).

Si puedo usar grupos iguales, entonces el clasificador comienza la clasificación para el "pequeño" grupo así, pero el rendimiento es bastante malo (peor que FLD o LR).

UPDATE2: creo que el problema era que estaba usando completa de la matriz de covarianza. Se ejecuta con la diagonal de la matriz de covarianza me dio más "equilibrada" de los resultados.

1voto

John Richardson Puntos 1197

La asignación de todos los patrones a la clase negativa ciertamente no es un "extraño" resultado. Podría ser que el de Bayes óptimo clasificador siempre clasifica a todos los patrones, como pertenecientes a la mayoría de la clase, en cuyo caso su clasificador está haciendo exactamente lo que debe hacer. Si la densidad de los patrones pertenecientes a la positiva clase nunca excede la densidad de los patrones pertenecientes a la clase negativa, entonces la clase negativa es más probable que independientemente de los valores de atributo.

Lo que hay que hacer en tales circunstancias es considerar la importancia relativa de falsos positivos y falsos negativos errores, es muy frecuente en la práctica que los costos de los dos tipos de error son los mismos. Para determinar la pérdida de falsos positivos y falsos negativos de los errores y tomar en cuenta en la fijación del umbral de probabilidad (diferentes a la clasificación errónea de los costos es equivalente a la evolución de las probabilidades previas, así que esto es fácil de implementar para naive Bayes). Yo recomendaría la sintonización de los priores para minimizar la cruz-la validación de la estimación de la pérdida (la incorporación de su desigual de la mala clasificación de los costos).

Si el error en la clasificación de los costos son iguales, y su conjunto de entrenamiento de los priores representante de las condiciones operativas, a continuación, suponiendo que su aplicación es correcta, es posible que usted ya tiene el mejor NB clasificador.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X