1 votos

¿Por qué necesitas un equipo de pruebas equilibrado?

Parece haber consenso en que, si es posible, tanto el conjunto de entrenamiento como el de prueba para la clasificación binaria deben estar equilibrados entre las dos clases, especialmente si se utilizan clasificadores como SVM.

Aunque entiendo por qué es así en el juego de trenes, ¿por qué es necesario equilibrar el conjunto de pruebas? Según tengo entendido, cada muestra sería un problema independiente y se predeciría por sí sola, así que ¿por qué influiría la distribución general en la predicción?


Contexto práctico: Estoy trabajando en un problema biológico para el que tengo acceso a positivos y puedo "inventar" negativos para mi clasificador, y así puedo conseguir un conjunto de trenes perfectamente equilibrado. Sin embargo, la aplicación práctica en la vida real sería en conjuntos que contienen abrumadoramente más negativos que positivos debido a la naturaleza del problema.

0voto

Rdua Puntos 28

Cuando calcule el error de prueba, es posible que desee saber cómo funciona su modelo para cada clase. Por ejemplo, si sólo tiene la clase positiva en su conjunto de pruebas, su error de prueba sería imperfecto, ya que no sabe cómo funcionaría su clasificador con la clase negativa. Aunque haya calculado el error del conjunto de entrenamiento de ambas clases, es posible que no represente correctamente el error del conjunto de prueba, ya que el error de prueba suele ser peor que el error del conjunto de entrenamiento.

En cuanto a la representación del error en la vida real, depende de cómo se quiera calcular el error. Para el FPR, TPR, que no dependen de la relación de los números de la observación en las clases y por lo tanto no tenemos un problema. Y el ROC que se construye a partir de FPR y TPR tampoco tiene ningún problema.

Pero hay algunas cantidades, como el FDR, que dependen de la proporción de clases. Por lo tanto, debe tener cuidado si necesita calcular esas cantidades. Adjunto una figura que muestra las cantidades calculadas para la clasificación binaria. ( https://en.wikipedia.org/wiki/Receiver_operating_characteristic ) Además del FDR, las cantidades de las filas como PPV, FOR, NPV dependen de la relación de clase y no obtendrá las cantidades de la vida real.

enter image description here

Además, la pérdida de 0-1 también se ve afectada por el equilibrio de clases:

$$ L(i, j) = \begin{cases} 0 \qquad i = j \\ 1 \qquad i \ne j \end{cases} \qquad i,j \in M $$

En la tabla anterior, 0-1 pérdida es lo mismo que FP + FN, y la cantidad cambia cuando cambiamos el balance de clase.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X