5 votos

¿Cómo medir la confianza en el clasificador de datos no independientes?

Tengo algunos datos ruidosos de alta dimensión, y cada punto de datos tiene una "puntuación". Las puntuaciones se distribuyen normalmente. Algunas puntuaciones son conocidas y otras son desconocidas; quiero separar los puntos desconocidos en dos grupos, en función de si creo que la puntuación es positiva o no.

Tengo una caja negra que, dados unos puntos de datos y sus puntuaciones, me da un hiperplano que separa correctamente los puntos (si es que existe).

Separo los puntos con puntuación conocida en dos conjuntos disjuntos para el entrenamiento y la validación respectivamente.

Entonces, repetidamente (digamos k veces), hago lo siguiente:

  • Seleccione aleatoriamente algunos puntos de datos con puntuación positiva y algunos puntos con puntuación negativa del conjunto de entrenamiento (para algunos valores positivos fijos para m y n ).
  • Utilice la caja negra para (intentar) obtener un hiperplano de separación para estos puntos muestreados.
  • Si recupero un hiperplano, guárdalo.

Ahora tengo algunos hiperplanos (digamos que tengo 0 < k' <= k de ellos).

Utilizo estos hiperplanos para separar el conjunto de validación. Selecciono el hiperplano que clasifica correctamente el mayor número de puntos como positivos o negativos (número de positivos correctos + número de negativos correctos).

Mi pregunta es: ¿Cómo puedo medir la confianza estadística de que el hiperplano finalmente seleccionado es mejor que el aleatorio?

Esto es lo que he hecho hasta ahora:

Digamos que hay n puntos en el conjunto de validación. Si un hiperplano clasifica correctamente un punto con probabilidad p y ésta es independiente para todos los puntos, podemos utilizar una distribución binomial.

Sea F la fdc de la distribución binomial. Sea X el número de puntos correctamente clasificados en el conjunto de validación (por lo que estamos asumiendo X ~ B(n, p) ). Entonces P(X <= x) = F(x) .

Ahora, tenemos k' hiperplanos. Supongamos que estos pueden ser representados como k' Variables del IID X1, X2, ..., Xk' .

Ahora P(max(X1, X1, ..., Xk') <= x) = F(x) ^ k' .

Digamos que un hiperplano aleatorio es uno como el anterior donde p es igual a la proporción de puntuaciones positivas en el total (así que si es tres cuartas partes positivas, p = 0.75 ).

Haciendo algunos números, hice estos números. Dejemos que p = 0.5 para simplificar. Supongamos que quiero comprobar si el hiperplano seleccionado es mejor que el aleatorio con probabilidad > 0,95.

Si n = 2000 Necesito clasificar 1080 correctamente para tener una confianza superior a 0,95 de que este clasificador es mejor que el aleatorio (creo, a no ser que haya hecho mal el cálculo).

Sin embargo, Si los puntos no son independientes, esto no funciona. Supongamos que muchos de los puntos son idénticos, por lo que el tamaño efectivo del conjunto es mucho menor que n . Si n = 20 Si el resultado de la prueba es positivo, se necesitan 18 aciertos para una confianza del 0,95; si se extrapola, se necesitarían 1.800/2000.

Estoy seguro de que los puntos no son independientes, pero no estoy seguro de qué manera, o cómo hacer para medir eso y contabilizarlo en un cálculo similar al anterior.

He estado leyendo este periódico: La distribución binomial con ensayos Bernoulli dependientes por PAG Van der Geest . Describe un algoritmo para estimar una distribución binomial para ensayos bernoulli dependientes dadas las expectativas marginales para cada evento y las "correlaciones de segundo orden" entre (algunos) pares de eventos. Creo que probablemente podría averiguar cómo estimarlas (por ejemplo, basándome en una métrica de distancia entre los puntos del espacio), pero no entiendo los detalles del artículo lo suficientemente bien como para implementar fácilmente el algoritmo descrito.

2 votos

¿Podría decir más específicamente qué quiere decir con "el hiperplano finalmente seleccionado es mejor que el aleatorio"? Parece que quieres calcular un valor p, pero no me queda claro cuál es la hipótesis nula

1 votos

Si lo único que quieres probar es si el hiperplano es mejor que el aleatorio, entonces no parece importar cómo lo has obtenido. Pero puede valer la pena indicar qué significa "mejor que el azar", por ejemplo, mejor que un predictor que sólo adivina basándose en los recuentos relativos de los positivos frente a los negativos. Por cierto, cuando dices que las puntuaciones se distribuyen normalmente, ¿estás diciendo que la distribución marginal de las puntuaciones es $\mathcal{N}(0,1)$ ?

0 votos

Me parece que, en efecto, puede importar mucho cómo se elija el hiperplano aleatorio, es decir, cuál es la hipótesis nula. "Un" hiperplano aleatorio podría estar muy lejos de las muestras reales, al igual que "un" punto aleatorio en el plano de un gráfico de dispersión.

1voto

BillyJean Puntos 118

El problema, como menciona @Stephan Kolassa es lo que significa "aleatorio" en "mejor que aleatorio". Podría significar

a) un clasificador aleatorio, que selecciona el positivo o el negativo para un nuevo dato al azar.

b) un hiperplano aleatorio en el espacio

c) un hiperplano al azar entre los seleccionados por el procedimiento de que usted describe arriba (en las viñetas).

a)

Si se trata de un clasificador aleatorio, entonces el mejor clasificador aleatorio es el que adivina "+" con una probabilidad p+ que es la proporción de los "+" en el conjunto de entrenamiento. Entonces un clasificador aleatorio acertará con la probabilidad p+^2 + p-^2 (donde p- = 1-p+)

El utilizas una prueba binomial para comprobar si el número de veces que tu clasificador es correcto tiene un valor p < 0,05.

No importa que los datos no sean independientes - está claro que no lo son si se piensa que hay un clasificador que puede funcionar con ellos - el clasificador aleatorio trata los datos como independientes - cada predicción es totalmente independiente de las demás.

b) y c)

Si el "aleatorio" de tu frase es un hiperplano aleatorio, o un hiperplano aleatorio seleccionado por el procedimiento, creo que la solución es la misma: Monte Carlo. Genera una gran muestra aleatoria de los hiperplanos, y verifica cómo se compara la precisión (número de predicciones correctas) de tu mejor hiperplano seleccionado con la distribución de precisiones de los hiperplanos aleatorios.

Creo que hay algunas cuestiones sobre cómo generar hiperplanos aleatorios en el espacio en el caso de b) pero no soy competente para discutirlo. En el caso de c) sólo hay que recoger los hiperplanos.

Pero hay un problema general. ¡Tu mejor hiperplano se selecciona como el que tiene mayor precisión entre los hiperplanos construidos en el conjunto de validación - por definición este hiperplano tendrá mayor precisión que todos los demás, y si tienes más de 20 hiperplanos construidos, puedes tener la certeza por debajo de p=0.05 de que éste es el mejor que uno al azar!

I piense en hay que realizar esta prueba de Monte Carlo en un conjunto de validación diferente - ¡no el que se utiliza para seleccionar el hiperplano con mayor precisión!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X