4 votos

¿Cómo comparar características y clasificadores que lograr precisión perfecta?

Así que estoy buscando para comparar diferentes combinaciones de características y clasificadores. Pero me estoy poniendo un montón de combinaciones que alcanzar 100% Cruz validación exactitud. Estoy tratando de averiguar cómo compararía la utilidad de cada combinación.

Por ejemplo puedo tanto entrenar un SVM usando características 1, 10, 15 para obtener 100% de exactitud. Pero al mismo tiempo puedo entrenar un clasificador de regresión logística utilizando sólo 7 característica para obtener 100% de exactitud. También es un problema de clasificación binario.

5voto

lennon310 Puntos 1882

El tamaño de la muestra de sus datos de prueba puede ser estimada a partir de la probabilidad de las desigualdades. Usted puede calcular el número de la muestra para obtener una precisión deseada, con alta probabilidad.

Sin embargo, con la prueba pequeña tamaños de muestra, incluso si un decente clasificador puede ser derivado, no puede ser demostrado que el clasificador funciona bien. Puede que desee tener una mirada en el papel de la discusión de este problema: Beleites, C. et al.: Tamaño de la muestra planificación de los modelos de clasificación., Anal Chim Acta, 760, 25-33 (2013). En el papel, con un total de 34 casos incluso no ser capaz de obtener una estimación útil de la curva de aprendizaje, debido al pequeño tamaño de la muestra de prueba (≤34). La curva en el papel podría ser útil para usted.

3voto

lejlot Puntos 1379

La única solución razonable es reunir más datos. Si algunos de los modelos son perfectos , a continuación, son perfectos, no se puede comparar. Obviamente, usted puede analizar que es más simple (tiene menos parámetros), construir el modelo más simple (en términos de dimensión VC) o aprende más rápido, pero la verdad es que si los datos es tan simple, que se obtiene una precisión del 100%, no hay nada realmente a analizar (a menos que estos resultados son consecuencia de la incorrecta procedimiento de evaluación, que también puede ser el caso).

2voto

Shaun Puntos 1

ROC / AUC no ayuda aquí. Si el clasificador binario es perfecto, y tiene un cierto umbral para variar (o más ROC no tiene sentido), entonces las puntuaciones de todos los ejemplos positivos en o por encima del umbral, y negativa en los ejemplos a continuación. Como el umbral que va de bajo a alto, la curva ROC va de (1,1) (0,1) (0,0). El AUC es siempre 1.

Usted puede discriminar entre perfecto clasificadores, pero va a tomar un poco más de información. Si usted no tiene más datos, pero su clasificador es uno que se puede calcular un intervalo de confianza o probabilidad de una clasificación, a continuación, desea que el uno que es más seguro acerca de sus respuestas. Por ejemplo, usted podría tomar el uno con el menor diferencial de la entropía a través de las confidencias en el positivo / negativo ejemplos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X