5 votos

Normalización de datos SVM... ¿qué pasa con la clasificación de nuevos datos (de entrenamiento)?

Tengo una gran duda sobre la tarea de clasificación SVM (y más en general la tarea de clasificación), sobre normalización de datos . Supongamos que tengo un SVM entrenada con la normalización datos, y nuevos datos para clasificar .

1 ) ¿Cómo se normalizan los nuevos datos? ? Tenga en cuenta que no los conozco cuando normalicé y entrené mi SVM.

2 ) ¿Cuál es el mejor método de normalización? ? ¿Mínimo-máximo o media+varianza cero?

Una posible solución que he pensado es: una vez que lleguen los nuevos datos, y como estamos trabajando con SVs (que son, parte de los datos de entrenamiento), podemos des-normalizar los SVs, volver a calcular min-Max/media-var del nuevo conjunto de datos ENTERO, y normalizar los nuevos datos y volver a normalizar los SVs. ¿Qué pasa con esto?

Gracias de antemano, Ivano

1 votos

Un comentario: ¿y qué pasa con NO escalar/normalizar?

10voto

Adam Luchjenbroers Puntos 142
  1. Almacena la media y la desviación estándar de las características del conjunto de datos de entrenamiento. Cuando se reciban los datos de prueba, normalice cada característica restando su correspondiente media de entrenamiento y dividiéndola por la correspondiente desviación estándar de entrenamiento.

  2. La normalización por medio de mín/máx suele ser una muy mala idea, ya que implica escalar todos los datos de acuerdo con dos observaciones particulares. La media/estado es un procedimiento estándar e incluso se puede experimentar con medidas más robustas (por ejemplo, la mediana/MAD).

¿Por qué escalar/normalizar? Debido a la forma en que se define el problema de optimización de la SVM, las características con mayor varianza tienen un mayor efecto en el margen. Por lo general, esto no tiene sentido: nos gustaría que nuestro clasificador fuera "invariante de la unidad" (por ejemplo, un clasificador que combina el peso y la altura de los pacientes no debería verse afectado por la elección de las unidades: kgs o gramos, centímetros o metros).

Sin embargo, supongo que puede haber casos en los que todos los rasgos se den en las mismas unidades y las diferencias en su varianza reflejen efectivamente diferencias de importancia. En tal caso, intentaría omitir el escalado/normalización y ver qué efecto tiene en el rendimiento.

0 votos

+1 Aprecio especialmente los puntos del nº 2, que a menudo se pasan por alto.

0 votos

¿Por qué no normalizar el conjunto de pruebas utilizando la media y la desviación estándar del propio conjunto de pruebas en lugar de utilizar esas métricas del conjunto de pruebas?

0 votos

Razones para preferir la normalización por los datos de entrenamiento: 1. Los datos de entrenamiento suelen ser mucho mayores, lo que permite obtener mejores estimaciones de la media y la std. 2. En aplicaciones reales, los datos de prueba pueden ser una única observación, por lo que no se dispone de estadísticas. 3. 3. Los datos de prueba no están etiquetados y no es necesario que estén equilibrados, por lo que la normalización puede verse afectada por las etiquetas de prueba verdaderas y desconocidas. Dicho esto, puede darse la situación de que los datos de prueba estén escalados y/o desplazados (por ejemplo, obtenidos por un sensor diferente no calibrado), y entonces normalizarlos por su propia media y std tiene sentido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X