Estoy intentando comprender la regresión logística entrenando un clasificador en el conjunto de datos MNIST (una lista de dígitos escritos a mano representados como una lista de intensidades de píxeles).
He leído sobre la normalización de características ( https://en.m.wikipedia.org/wiki/Feature_scaling ) pero no sé cómo aplicarlo al problema que tengo entre manos. Los datos de entrenamiento se parece a esto:
P1, P2, P3, ... P748
0, 0, 180, ... 240
0, 50, 150, ... 0
0, 0, 0, ... 108
Así, cada fila describe una imagen distinta, y cada columna representa el mismo píxel (P1 es el píxel de la esquina superior izquierda de la imagen, P2 es el píxel siguiente a la derecha, etc.).
Pregunta 1
Al normalizar los datos, ¿normalizo cada instancia (donde mín. y máx. se refieren a los valores dentro de esa fila) o normalizo cada característica en todo el conjunto de datos de formación (donde mín. y máx. de P1 se refieren a los valores dentro de cada ejemplo de formación - potencialmente muchas docenas de miles de valores)?
Pregunta 2
Una vez entrenado el clasificador con datos normalizados, ¿qué hago con una nueva muestra de datos que quiero pasar por el clasificador? ¿Normalizo todas las características entre sí (donde mín. y máx. se refieren a los valores entre P1 y P748 dentro de una única instancia)?