Tasa de éxito del clasificador e intervalos de confianza

Question

Tasa de éxito del clasificador e intervalos de confianza

Preguntado el 15 de Febrero, 2012: Cuando se hizo la pregunta
885 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Supongamos que medimos el error del clasificador en un conjunto de pruebas y obtenemos una determinada tasa de éxito, por ejemplo, el 75%. Ahora, por supuesto, esto es sólo una medida. ¿Cómo calcular el "verdadero" porcentaje de éxito? Seguro que se aproxima al 75%, pero ¿en qué medida?

Entiendo que está relacionado con los intervalos de confianza pero ahora estoy perdido en los intervalos de confianza. Creo que mi ejemplo es similar a esta en wikipedia en el que se estudia la distribución del peso de los vasos de margarina. (Lo siento, las matemáticas no se reproducen aquí, por lo que he creado una captura de pantalla - también es posible que desee hojear el correspondiente sección en el artículo de la wikipedia).

enter image description here

Tengo las siguientes preguntas:

¿Por qué utilizan la fórmula del error estándar anterior?
¿De dónde sale este ^{-1}(0,975)=1,96?
Para resolver mi problema de "tasa de éxito real", ¿debo repetir la estimación N veces y luego aplicar el mismo razonamiento que se hace con los vasos de margarina?

Preguntado el 15 de Febrero, 2012 por vignesh

Answer 1

1 Respuestas

Answer 2

1voto

A.Schulz Puntos 264

Si se supone que los datos están distribuidos normalmente, se puede utilizar el error estándar, ya que es el error que se espera de los datos distribuidos normalmente con la misma expectativa (media).
Nos interesa saber cuántas muestras caen en las "colas" de la distribución, es decir, cuántas muestras caen fuera de un determinado rango. $\alpha$ es el intervalo de confianza, es decir, si fijamos $\alpha = 0.95$ entonces esto define los límites de donde el 95% de los datos deberían estar, en circunstancias ideales. Utilizamos la FCD inversa $\phi^-1$ para calcular cuáles son estos límites. Esto también se denomina "Función Q" y puede expresarse en términos de función de error como:

$Q(x) =\tfrac{1}{2} - \tfrac{1}{2} \operatorname{erf} \Bigl( \frac{x}{\sqrt{2}} \Bigr)=\tfrac{1}{2}\operatorname{erfc}(\frac{x}{\sqrt{2}}).$ (¡espero que las matemáticas rindan pronto!)

Está disponible en matlab . El cálculo requerido es 2*(1-erfcinv(0.975)) o 1-erfcinv(0.95) desde $Q(x) = 1-\phi(x)$

En realidad, esto está relacionado con otra pregunta que hice . La respuesta sería que sí si se espera que las puntuaciones de la clasificación se distribuyan normalmente. Sin embargo, no estoy seguro de que esto sea cierto: es de esperar que las puntuaciones tengan un sesgo hacia el 1 (si se utiliza la precisión) y casi seguro que no sean simétricas (es decir, sesgadas). Como se indica en una de las respuestas a mi pregunta, tal vez algo como Prueba de McNemar podría ser útil, aunque eso es realmente para comparar clasificadores. Supongo que lo mejor que se puede hacer para un solo clasificador es proporcionar la media y la desviación estándar de muchas divisiones de entrenamiento/prueba, como es una práctica común en los trabajos de investigación.

Respondido el 15 de Febrero, 2012 por A.Schulz (264 Puntos )

Tasa de éxito del clasificador e intervalos de confianza

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Tasa de éxito del clasificador e intervalos de confianza

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: