Tengo un sistema biométrico que da salida a una distribución de puntuaciones que se asemeja a una distribución Gaussiana (similar al gráfico de ejemplo en el siguiente enlace: LINK ). Mi punto de confusión es cómo calculo la tasa de aceptación falsa. ¿Cómo factor de umbral en todo el problema?
Respuestas
¿Demasiados anuncios?Sólo añadir que en otras respuestas, aquí está un breve resumen' en la terminología.
Para cualquier biométricos o sistema de clasificación, el principal indicador de rendimiento es la característica de funcionamiento del receptor (ROC) de la curva, que es una parcela de la verdadera tasa de aceptación (TAR=1-FRR, la tasa de falso rechazo) en contra de la tasa de falsa aceptación (FAR), que se calcula como el número de falsas instancias clasificadas como positivas entre todos intruso y charlatán de los casos. Cuanto más cerca de la curva es a la esquina superior izquierda, el mejor es (esto corresponde a la maximización de la denominada área bajo la curva o AUC). En general, dichas curvas se generan fuera de línea desde una base de datos de registros anteriores. En la biométrica de la literatura, AHORA a veces se define de forma tal que el "impostor" hace cero esfuerzo para la obtención de un partido. Aquí, estoy más o menos de citar la Biometría, de Boulgouris et al. (cap. 26).
Así, usted puede elegir su corte mediante el uso estándar de ROC herramientas (de la búsqueda para "análisis ROC" en Rseek) para encontrar el mejor compromiso entre la medida y el ALQUITRÁN (esto no es necesariamente que la frecuencia de corte que maximiza las AUC, depende de tus objetivos).
Ahora, como ha sido señalado en otras respuestas, este compromiso entre la medida y el ALQUITRÁN llevó a la interpretación similar en la psicofísica, la clasificación o la ciencia biomédica. Es sólo una cuestión de terminología, y a menudo hablamos de la tasa de aciertos vs tasa de Falsas Alarmas; sensibilidad frente especificidad.
Nota
Aquí hay algunas fotos para complementar otras respuestas, que espero que te ayude a trazar el paralelo con la teoría de la decisión y de la estadística de prueba.
Supongamos que un individuo se enfrenta a una de dos alternativas de elección experimento. Dependiendo de la ubicación de su interior criterio, su respuesta puede conducir a Golpear o Falsa Alarma (respuesta > criterio), o como alternativa Correcta Rechazo o Perder (respuesta < criterio). La correspondiente probabilística de la curva de respuesta de parecerse a su situación.
La mayoría de los clásicos libros de texto de Estadística proporciona una Tabla similar a la de abajo, donde se describen las probabilidades de que incorrectamente rechazar una hipótesis nula ($\alpha$) vs falsamente "aceptar" nula ($\beta$) donde, de hecho, la alternativa es verdadera.
Esto lleva a la misma imagen, como con la psicofísica modelo de umbral:
suena como tho simplificado situación puede captar la esencia del problema:
hay dos poblaciones de individuos: A = aceptable individuos y U = unacceptables. asociados con cada individuo es un 'score' $X$. supongamos que en cada una de las dos poblaciones, los resultados han distribución gausiana, donde en Una, el [verdadero] media es $\mu_A$ y en U,$\mu_U$. podemos suponer [aunque no necesita] que las distribuciones tienen la misma SD = $\sigma$. todos los tres (o cuatro] parámetros presumiblemente son conocidos.
supongamos $\mu_A > \mu_U$, así que tiene sentido para aceptar a un individuo si su 'score' $X$ está por encima de un cierto umbral $c$, dicen.
hay dos maneras en las que esta regla puede ir mal:
una $X$ desde U puede exceder $c$, dando lugar a una falsa aceptación.
una $X$ puede estar por debajo de $c$, que conduce a un falso rechazo.
las probabilidades
$$err_{falseacc} = P(N(\mu_U, \sigma^2) > c)$$
y
$$err_{falserej} = P(N(\mu_A, \sigma^2) < c)$$
son las dos tasas de error asociado con la regla. usted se está centrando en $err_{falseacc}$.
no es difícil ver que, como en el umbral de $c$ es cambiado, hay una tasa de errores se reduce y la otras aumentará. por lo $c$ tiene que ser elegido para dar los valores de error de las tasas que se puede vivir con.
una vez que elija $c$, como otros ya han comentado, las tasas de error se puede calcular.
en el lenguaje de la estadística, se están poniendo a prueba dos hipótesis acerca de la $\mu$ de la población que la persona observada con la puntuación $X$ vino. una hipótesis es H$_A: \mu = \mu_A$ y el otro es H$_U: \mu = \mu_U$. la 'prueba' para decidir entre estas dos hipótesis es la regla anterior y el error las tarifas anteriores son [algo unhelpfully] llamado a las de tipo I y de tipo II errores, o [igualmente unhelpfully, En mi humilde opinión] la sensibilidad y la especificidad de la o [asimismo] el productor del riesgo y el consumo de riesgo. que es la que depende de cuál de las dos hipótesis es designado como la "hipótesis nula", una distinción que puede no ser del todo útil en este contexto.
No estoy seguro. Soy curioso en cuanto a las otras respuestas que obtenga. Sin embargo, creo que voy a necesitar para aclarar un poco:
¿Su distribución Gaussiana representan las calificaciones de una población de individuos que deben ser rechazadas por el sistema biométrico?
Si es así, entonces creo que usted simplemente necesita para calcular una probabilidad acumulativa - es decir, el porcentaje de individuos que deben ser rechazadas, pero que, por azar, caen por encima de su umbral y se "falsamente aceptado" por el dispositivo biométrico.
Entonces, podría ser tan simple como calcular el número de personas que de forma aleatoria caída por encima de su umbral dividido por el número total de "debe ser rechazado" a la gente.
Pero de nuevo, no estoy seguro de mi respuesta y creo que es necesario aclarar lo que sus suposiciones son, cuál es su umbral, y cómo desea clasificar a los individuos como "falsamente rechazado".