Tengo un problema para predecir los aciertos a partir de las características originales. Intenté usar LDA en la matriz original, pero el problema es que la probabilidad de obtener un acierto frente a un no acierto es del 95% frente al 5%. Dicho esto, después de ejecutar el LDA obtengo una tasa de verdaderos positivos del 5% y una tasa de verdaderos negativos del 96%. Ahora bien, mi comprensión de LDA me hace pensar que cuando separa los aciertos de los no aciertos en dos grupos, estos últimos reciben más atención, sin embargo lo que realmente quiero es minimizar la tasa de falsos descubrimientos, incluso mejor controlarla. La pregunta es ¿qué algoritmo es el más adecuado para esto? Tengo dos grupos binarios coexclusivos (Hit/Not-hit).
Respuestas
¿Demasiados anuncios?Se puede utilizar cualquier clasificador binario, por ejemplo, la regresión logística. El problema es más complicado en la fase de selección del modelo, más concretamente: cómo va a seleccionar el modelo. Aquí tendrá que estimar el rendimiento (en un conjunto de datos no utilizados). Su caso es típico de los datos del mundo real, ya que tiene un gran desequilibrio de clases. Si se calcula el indicador de rendimiento como exactitud, el resultado será muy sesgado. Le propongo que utilice una medida de precisión equilibrada (véase Diapositivas de la charla ).
Creo que tu problema es realmente evaluar el resultado de un modelo, no encontrar un buen modelo por así decirlo. Por desgracia, ese es el problema más difícil.
Mira el ROC y el AUC - una buena fuente es http://www-bcf.usc.edu/~gareth/ISL/ El paquete ROCR es bastante útil.
Las reglas de puntuación también pueden ser muy útiles.