4 votos

¿Cómo puedo discernir si un clasificador del resultado es significativamente diferente?

Esta es una pregunta que he publicado aquí algún tiempo atrás. y me gustaría saber si puedes pensar en más soluciones para que a partir de la ML perspectiva? Por desgracia, creo que no se puede utilizar la prueba de McNemar test debido al pequeño tamaño de la muestra (por lo tanto, los valores no están distribuidos normalmente)


¿Cómo puedo comparar si un clasificador de salida es significativamente diferente?

Tengo un conjunto de datos relativamente pequeño que estoy tratando de clasificar. Mi conjunto de entrenamiento se compone de 24 ítems que provienen de dos grupos diferentes, 12 elementos de cada grupo. Cada elemento tiene dos propiedades. Tengo 12 nuevos elementos que me gustaría clasificar basándose en este conjunto de entrenamiento. (no estoy seguro si los números son tan importantes para mi pregunta... )

He probado con 5 diferentes clasificadores, y su clasificación por lo que el resultado es el siguiente:

1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0
0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1
0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1
0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1
0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1

¿Cómo puedo comprobar si los resultados son significativamente diferentes unos de otros?

5voto

Matt David Puntos 238

Es difícil derivar algo de significado de lo que es esencialmente de 5 puntos de datos.

Me gustaría utilizar una distancia de Hamming de un vector de referencia y aceptar los resultados que están a menos de n lejos de eso.

No es perfecto, y es probable que no se pueda publicar, pero usted puede conseguir una idea para sus propias evaluaciones comparativas y tal vez de la cruz-fines de validación.

2voto

A.Schulz Puntos 264

En primer lugar yo estaría de acuerdo con @jonsca - ahora hay manera de obtener algo de tan pocos puntos de datos.

Cuando se contabiliza en las estadísticas.SÍ, usted hizo un comentario que:

Me gustaría hacer una prueba estadística para probar si los resultados son diferentes unos de otros ( que no sé exactamente cómo hacerlo, es por eso que estoy pidiendo aquí....). desde el clasificador que son diferentes unos de otros, me gustaría construir un Conjunto de base del sistema como se describe aquí: users.rowan.edu/~polikar/INVESTIGACIÓN/PUBLICACIONES/csm06.pdf que me estoy perdiendo algo aquí ?

Así que voy a intentar responder desde ese punto de vista. Si vas a entrenar a un conjunto de clasificador, tales como AdaBoost, usted sólo tiene que preocuparse de diferencias estadísticas entre los clasificadores si usted está preocupado de que no hay suficiente diversidad en el conjunto de la debilidad de los alumnos. Si todos los débiles estudiantes son esencialmente los mismos, entonces claramente el más fuerte alumno puede crear es tan fuerte como el más fuerte débil alumno.

En su caso, con tan pocos base de los clasificadores, y lo que parece un conjunto diverso, que no me preocupe y me acaba de tratar de conectarlo a AdaBoost. Sin embargo, de nuevo yo diría que con tan pocos puntos de datos es poco probable que consiga algo con sentido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X