Processing math: 50%

2 votos

Utilizando puntuaciones de regresión logística para inferencia

Estoy entrenando la regresión logística para la clasificación binaria en un conjunto de datos etiquetados. Ahora estoy usando las mismas entradas y prediciendo sus puntajes usando el modelo.

Por ejemplo, tengo una entrada con etiqueta 0 y un puntaje predicho de 0.1 y otra entrada con etiqueta conocida 0 y puntaje predicho 0.2. Básicamente estoy usando el modelo para obtener la probabilidad para datos vistos (en oposición a datos no vistos).

Y estoy intentando argumentar si la probabilidad predicha muestra el orden/clasificación de las entradas - ¿la segunda entrada del ejemplo está más cerca de la clase 1 que la primera entrada? ¿O simplemente muestran el rendimiento de mi modelo?

Esto contradice el enfoque común cuando se usa un modelo entrenado en datos no vistos, y siento que comparar los puntajes de los datos de entrenamiento no tiene sentido, pero no puedo entender por qué

2voto

dan90266 Puntos 609

Los modelos de regresión logística, aunque se utilizan para Y categórico, no son métodos de clasificación. En cambio, se utilizan para estimar tendencias, es decir, probabilidades. En resumen, un clasificador es apropiado cuando las probabilidades de pertenencia a una clase rondan alrededor de 0.0 y 1.0, es decir, cuando la relación señal:ruido es excepcionalmente alta. De lo contrario, no suele ser útil forzar que las probabilidades se conviertan en etiquetas. En cualquier caso, esto requeriría una función de utilidad/pérdida/costo porque es una decisión, no una predicción. Se pueden encontrar más detalles aquí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X