6 votos

Modelos de entrenamiento en muestras sesgadas.

Tengo el siguiente problema:

El objetivo es encontrar un modelo que clasifica las muestras como de riesgo, o menos riesgoso. Sin embargo, sólo el riesgo de muestras están siendo realmente manualmente investigado, es decir, etiquetados. Hasta ahora, un modelo fijo ha sido utilizado para la clasificación de muestras de alto riesgo y de bajo riesgo, y, a continuación, los considerados peligrosos se investigaron más, y se llegó a la conclusión, si se trataba de una falsa alarma, y en caso contrario, se intensificó.

Eso significa que la existente etiquetado de datos, así como el futuro etiquetado de datos, estará sesgada hacia lo que se considera riesgoso por el modelo fijo, y un montón de verdaderos positivos se puede perder debido a que.

Es allí una manera inteligente de reducir el impacto de este sesgo de selección cuando el entrenamiento supervisado modelo?

10voto

TheN Puntos 1

Corríjame si me equivoco, pero creo que quiere decir que hay exceso de muestreo.

No estoy seguro de si esto ayudaría pero, en mi humilde opinión, vale la pena echarle un vistazo. https://communities.sas.com/t5/SAS-Data-Mining-and-Machine/Urgent-how-to-adjust-probabilities-after-oversampling-Please/td-p/170809

1voto

user53922 Puntos 11

Bajo ciertas suposiciones, una forma de capturar algunos de esos falsos positivos ocultos sería mediante la agrupación y, posiblemente, la detección de valores atípicos. Luego, además de los ejemplos de alto riesgo, puede examinar manualmente algunos ejemplos representativos de cada grupo, así como los valores atípicos. También puede ver si sus grupos / modelos de datos cambian significativamente con el tiempo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X