27 votos

Aprendizaje automático para predecir probabilidades de clase

Busco clasificadores que arrojen probabilidades de que los ejemplos pertenezcan a una de dos clases.

Conozco la regresión logística y el Bayes ingenuo, pero ¿puede decirme de otros que funcionen de forma similar? Es decir, ¿clasificadores que predigan no las clases a las que pertenecen los ejemplos, sino la probabilidad de que los ejemplos encajen en una clase concreta?

Puntos extra por cualquier idea que puedas compartir sobre las ventajas y desventajas de estos diferentes clasificadores (incluyendo regresión logística y Bayes ingenuo). Por ejemplo, ¿algunos son mejores para la clasificación multiclase?

10voto

jpmuc Puntos 4817

Otra posibilidad son las redes neuronales, si se utiliza la entropía cruzada como funcional de coste con unidades de salida sigmoidales. Así obtendrá las estimaciones que busca.

Las redes neuronales, al igual que la regresión logística, son clasificadores discriminativos, lo que significa que intentan maximizar la distribución condicional de los datos de entrenamiento. Asintóticamente, en el límite de muestras infinitas, ambas estimaciones se aproximan al mismo límite.

Encontrará un análisis detallado sobre esta misma cuestión en este documento . La idea es que, aunque el modelo generativo tenga un error asintótico mayor, puede aproximarse a él mucho más rápidamente que el modelo discriminativo. Por lo tanto, la elección de uno u otro dependerá del problema, de los datos de que se disponga y de las necesidades particulares.

Por último, considerar las estimaciones de las probabilidades condicionales como una puntuación absoluta en la que basar las decisiones (si eso es lo que se busca) no tiene mucho sentido en general. Lo importante es considerar, dada una muestra concreta, las mejores clases candidatas emitidas por el clasificador y comparar las probabilidades asociadas. Si la diferencia entre las dos mejores puntuaciones es alta, significa que el clasificador está muy seguro de su respuesta (no necesariamente acertada).

6voto

user34876 Puntos 6

La SVM está estrechamente relacionada con la regresión logística, y puede utilizarse para predecir también las probabilidades basándose en la distancia al hiperplano (la puntuación de cada punto). Usted hace esto haciendo puntuación -> probabilidad mapeo de alguna manera, que es relativamente fácil ya que el problema es unidimensional. Una forma es ajustar una curva S (por ejemplo, la curva logística, o su pendiente) a los datos. Otra forma es utilizar la regresión isotónica para ajustar una función de distribución acumulativa más general a los datos.

Aparte de SVM, puede utilizar una función de pérdida adecuada para cualquier método que pueda ajustar utilizando métodos basados en gradiente, como las redes profundas.

La predicción de probabilidades no es algo que se tenga en cuenta hoy en día a la hora de diseñar clasificadores. Es un extra que distrae del rendimiento de la clasificación, así que se descarta. Sin embargo, se puede utilizar cualquier clasificador binario para aprender un conjunto fijo de probabilidades de clasificación (por ejemplo, "p en [0, 1/4], o [1/4, 1/2], o ...") con la reducción de "sondeo" de Langford y Zadrozny.

2voto

Raff.Edward Puntos 573

Hay muchas, y la que mejor funciona depende de los datos. También hay muchas formas de hacer trampas: por ejemplo, se puede realizar una calibración probabilística de las salidas de cualquier clasificador que proporcione algo parecido a una puntuación (es decir, un producto escalar entre el vector de pesos y la entrada). El ejemplo más común es el llamado escalado de Platt.

También está la cuestión de la forma del modelo subyacente. Si tiene interacciones polinómicas con sus datos, entonces la regresión logística vainilla no podrá modelarla bien. Pero puede utilizar una versión de regresión logística con núcleo para que el modelo se ajuste mejor a los datos. Esto suele aumentar la "bondad" de los resultados probabilísticos, ya que también mejora la precisión del clasificador.

En general, la mayoría de los modelos que dan probabilidades suelen utilizar una función logística, por lo que puede ser difícil de comparar. Las redes bayesianas son una alternativa. Las redes bayesianas son una alternativa. Naive Bayes hace suposiciones demasiado simplistas para que sus probabilidades sean buenas, y eso se observa fácilmente en cualquier conjunto de datos de tamaño razonable.

Al final, suele ser más fácil aumentar la calidad de las estimaciones de probabilidad eligiendo el modelo que puede representar mejor los datos. En este sentido, no importa demasiado cómo se obtengan las probabilidades. Si puede obtener una precisión del 70% con una regresión logística y del 98% con una SVM, el mero hecho de dar una probabilidad de "confianza plena" hará que sus resultados sean "mejores" según la mayoría de los métodos de puntuación, aunque no sean realmente probabilidades (y entonces podrá realizar la calibración que he mencionado antes, haciéndolos realmente mejores).

La misma pregunta en el contexto de ser incapaz de obtener un clasificador preciso es más interesante, pero no estoy seguro de que nadie haya estudiado / comparado en tal escenario.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X