Tengo algunos datos ruidosos de alta dimensión, y cada punto de datos tiene una "puntuación". Las puntuaciones se distribuyen normalmente. Algunas puntuaciones son conocidas y otras son desconocidas; quiero separar los puntos desconocidos en dos grupos, en función de si creo que la puntuación es positiva o no.
Tengo una caja negra que, dados unos puntos de datos y sus puntuaciones, me da un hiperplano que separa correctamente los puntos (si es que existe).
Separo los puntos con puntuación conocida en dos conjuntos disjuntos para el entrenamiento y la validación respectivamente.
Entonces, repetidamente (digamos k veces), hago lo siguiente:
- Seleccione aleatoriamente algunos puntos de datos con puntuación positiva y algunos puntos con puntuación negativa del conjunto de entrenamiento (para algunos valores positivos fijos para m y n ).
- Utilice la caja negra para (intentar) obtener un hiperplano de separación para estos puntos muestreados.
- Si recupero un hiperplano, guárdalo.
Ahora tengo algunos hiperplanos (digamos que tengo 0 < k' <= k de ellos).
Utilizo estos hiperplanos para separar el conjunto de validación. Selecciono el hiperplano que clasifica correctamente el mayor número de puntos como positivos o negativos (número de positivos correctos + número de negativos correctos).
Mi pregunta es: ¿Cómo puedo medir la confianza estadística de que el hiperplano finalmente seleccionado es mejor que el aleatorio?
Esto es lo que he hecho hasta ahora:
Digamos que hay n puntos en el conjunto de validación. Si un hiperplano clasifica correctamente un punto con probabilidad p y ésta es independiente para todos los puntos, podemos utilizar una distribución binomial.
Sea F la fdc de la distribución binomial. Sea X el número de puntos correctamente clasificados en el conjunto de validación (por lo que estamos asumiendo X ~ B(n, p) ). Entonces P(X <= x) = F(x) .
Ahora, tenemos k' hiperplanos. Supongamos que estos pueden ser representados como k' Variables del IID X1, X2, ..., Xk' .
Ahora P(max(X1, X1, ..., Xk') <= x) = F(x) ^ k' .
Digamos que un hiperplano aleatorio es uno como el anterior donde p es igual a la proporción de puntuaciones positivas en el total (así que si es tres cuartas partes positivas, p = 0.75 ).
Haciendo algunos números, hice estos números. Dejemos que p = 0.5 para simplificar. Supongamos que quiero comprobar si el hiperplano seleccionado es mejor que el aleatorio con probabilidad > 0,95.
Si n = 2000 Necesito clasificar 1080 correctamente para tener una confianza superior a 0,95 de que este clasificador es mejor que el aleatorio (creo, a no ser que haya hecho mal el cálculo).
Sin embargo, Si los puntos no son independientes, esto no funciona. Supongamos que muchos de los puntos son idénticos, por lo que el tamaño efectivo del conjunto es mucho menor que n . Si n = 20 Si el resultado de la prueba es positivo, se necesitan 18 aciertos para una confianza del 0,95; si se extrapola, se necesitarían 1.800/2000.
Estoy seguro de que los puntos no son independientes, pero no estoy seguro de qué manera, o cómo hacer para medir eso y contabilizarlo en un cálculo similar al anterior.
He estado leyendo este periódico: La distribución binomial con ensayos Bernoulli dependientes por PAG Van der Geest . Describe un algoritmo para estimar una distribución binomial para ensayos bernoulli dependientes dadas las expectativas marginales para cada evento y las "correlaciones de segundo orden" entre (algunos) pares de eventos. Creo que probablemente podría averiguar cómo estimarlas (por ejemplo, basándome en una métrica de distancia entre los puntos del espacio), pero no entiendo los detalles del artículo lo suficientemente bien como para implementar fácilmente el algoritmo descrito.
2 votos
¿Podría decir más específicamente qué quiere decir con "el hiperplano finalmente seleccionado es mejor que el aleatorio"? Parece que quieres calcular un valor p, pero no me queda claro cuál es la hipótesis nula
1 votos
Si lo único que quieres probar es si el hiperplano es mejor que el aleatorio, entonces no parece importar cómo lo has obtenido. Pero puede valer la pena indicar qué significa "mejor que el azar", por ejemplo, mejor que un predictor que sólo adivina basándose en los recuentos relativos de los positivos frente a los negativos. Por cierto, cuando dices que las puntuaciones se distribuyen normalmente, ¿estás diciendo que la distribución marginal de las puntuaciones es $\mathcal{N}(0,1)$ ?
0 votos
Me parece que, en efecto, puede importar mucho cómo se elija el hiperplano aleatorio, es decir, cuál es la hipótesis nula. "Un" hiperplano aleatorio podría estar muy lejos de las muestras reales, al igual que "un" punto aleatorio en el plano de un gráfico de dispersión.
0 votos
He pensado un poco más en el problema y he editado con muchos más detalles
0 votos
La distribución marginal de las puntuaciones no es N(0, 1), es normal con alguna otra media y varianza
0 votos
¿Cómo se consiguen 1080 para n=2000?
0 votos
¿Sabe al menos qué puntos son dependientes? Si es así, podría tenerlo en cuenta utilizando la prueba de permutación y barajando los grupos de dependencia.
0 votos
@rep_ho puede que todos sean dependientes