20 votos

¿Cómo funcionan las ponderaciones muestrales en los modelos de clasificación?

¿Qué significa dar pesos a cada muestra en un algoritmo de clasificación? ¿Cómo utiliza un algoritmo de clasificación (por ejemplo, regresión logística, SVM) los pesos para dar más énfasis a determinados ejemplos? Me encantaría entrar en detalles para desentrañar cómo aprovechan los pesos estos algoritmos.

Si miras el sklearn documentación para la regresión logística, puede ver que la función de ajuste tiene una opción sample_weight que se define como una matriz de pesos asignados a muestras individuales.

18voto

Rickyfox Puntos 197

Como ya ha señalado correctamente Frans Rodenburg en su comentario, en la mayoría de los casos las ponderaciones de instancia o de muestra se tienen en cuenta en la función de pérdida que optimiza el método en cuestión.

Considere la ecuación la documentación proporciona para el problema primal del C-SVM

$$\min_{w,b,\zeta} \frac{1}{2}w^Tw + C\sum_{i=1}^{n} \zeta_i. $$

Aquí $C$ es el mismo para cada muestra de entrenamiento, asignando el mismo "coste" a cada instancia. En el caso de que haya pesos de muestra pasados a la función de ajuste

"La ponderación de la muestra reescala el parámetro C, lo que significa que el clasificador pone más énfasis en acertar estos puntos".

Como dice este ejemplo que también proporciona una buena visualización, mostrando cómo las instancias representadas por círculos más grandes (aquellos con mayor peso) influyen en el límite de decisión.

enter image description here

13voto

Phill Puntos 482

La respuesta de Rickyfox es estupenda para explicar cómo influyen las ponderaciones en los resultados de un clasificador, pero tal vez podría interesarte también por qué / cómo necesitaríamos tales ponderaciones en primer lugar (lo cual es más un problema estadístico que puramente de ML).

A veces, los datos observados tienen distribuciones diferentes y necesitamos utilizar ponderaciones muestrales para tenerlo en cuenta. Puede consultar Solon et. al (2015) para obtener más información sobre la importancia de las ponderaciones muestrales para los análisis y el ML (utiliza principalmente algoritmos de la literatura econométrica, pero la lógica es la misma).

La idea es que estas diferencias en las distribuciones crean desequilibrios en las clases y las características. Si no se trata, esto puede afectar al rendimiento de los predictores/clasificadores. Hace poco escribí una entrada en el blog sobre cómo se pueden utilizar estos pesos para mejorar la precisión de algunos algoritmos (presenta un ejemplo con datos de fútbol): https://nc233.com/2018/07/weighting-tricks-for-machine-learning-with-icarus-part-1/

La siguiente imagen muestra un ejemplo de desequilibrio de características: estos equipos del conjunto de datos no se han enfrentado a la misma calidad de oposición (elo). La predicción de los tipos de enfrentamientos menos frecuentes puede mejorarse mediante técnicas de reponderación.

Example of feature imbalances: these teams of the dataset have not faced the same quality of opposition (elo). The prediction of the rarer types of matchups can be improved by reweighting techniques

Otro ejemplo de buen uso de las ponderaciones muestrales es el tratamiento de los desequilibrios de clase (normalmente cuando una de las clases es muy rara). Véase por ejemplo lo que se hace por defecto en scikit-learn: http://scikit-learn.org/stable/modules/generated/sklearn.utils.class_weight.compute_sample_weight.html

Por último, a pesar de todas estas razones estadísticas, a veces sólo necesitamos aumentar "manualmente" la importancia de una observación por muy buenas razones, y para ello utilizamos las ponderaciones :)

Referencias

Solon, Gary, Steven J. Haider y Jeffrey M. Wooldridge. "¿Para qué ponderamos?". Revista de recursos humanos 50.2 (2015): 301-316.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X