2 votos

Problema de clasificación binaria en el que el número de casos negativos es mucho mayor que el número de casos positivos

Estoy tratando de escribir un clasificador logístico que clasifique los tokens de texto en una página web. Un problema con el que me encuentro es el hecho de que hay muchos más casos negativos de los tokens que intento clasificar que positivos. Mi pregunta es: ¿cuál es la proporción de datos de entrenamiento positivos con respecto a los negativos que debería utilizar? Parece que cuantos más datos negativos

Intenté buscar el problema en Google para encontrar documentos relevantes, pero no tuve éxito.

3voto

Kawish Puntos 56

Hace un año me encontré con un problema similar y quería saber si las etiquetas de clase desequilibradas conducen a problemas incluso en el caso perfecto de que los datos de entrenamiento y de prueba provengan de la misma distribución, así que hice un pequeño experimento: Entrené un clasificador (árboles de clasificación reforzados) en un conjunto de datos simulados de 6 dimensiones (50.000 filas en total, 75% para el entrenamiento, 25% para las pruebas) con una relación señal-ruido variable (4 valores para la SNR), un desequilibrio de etiquetas de clase variable (10 valores) y 3 esquemas de "muestreo", es decir, formas de tratar el desequilibrio de las etiquetas de clase. Es decir, formas de tratar el desequilibrio: 1.) ignorarlo ("ninguno"), 2.) submuestreo aleatorio ("rus") que conduce a un conjunto de datos equilibrado, normalmente mucho más pequeño que el original, y 3.) asignar pesos a las observaciones inversamente proporcionales a su frecuencia. He representado gráficamente estos 4 conjuntos de 30 (10x3) errores de prueba medidos por el AUC en este gráfico: http://dl.dropbox.com/u/8089659/ImbalancedData.pdf

Se me acabó la paciencia y no promedié los resultados de RUS en varias ejecuciones, por lo que es tan ruidoso, pero claramente para una fracción de clase minoritaria inferior a ~ 0,15-0,2 el submuestreo y los pesos parecen superar al clasificador normal que se entrena en todo el conjunto de datos.Aunque el efecto no es enorme, parece consistente. La belleza de RUS es la facilidad con la que se pueden paralelizar las diferentes muestras.

El script de R para crear los gráficos y ejecutar los experimentos está en: http://dl.dropbox.com/u/8089659/Imbalance.R

2voto

Zizzencs Puntos 1358

Creo que deberías utilizar la proporción de eventos positivos y negativos que reflejan tus datos. La regresión logística no asume nada acerca de la distribución de la VD, y si la cambias, tu modelo logístico modelará lo incorrecto. El problema es si el N en el grupo más pequeño (para usted, las respuestas positivas) es pequeño, especialmente si hay muchas IVs potenciales. Pero eso no se resuelve cambiando el número de eventos negativos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X