1 votos

Conjunto de datos de entrenamiento para la normalización de características

Estoy intentando comprender la regresión logística entrenando un clasificador en el conjunto de datos MNIST (una lista de dígitos escritos a mano representados como una lista de intensidades de píxeles).

He leído sobre la normalización de características ( https://en.m.wikipedia.org/wiki/Feature_scaling ) pero no sé cómo aplicarlo al problema que tengo entre manos. Los datos de entrenamiento se parece a esto:

P1, P2, P3,  ... P748
0,  0,  180, ... 240
0,  50, 150, ... 0
0,  0,  0,   ... 108

Así, cada fila describe una imagen distinta, y cada columna representa el mismo píxel (P1 es el píxel de la esquina superior izquierda de la imagen, P2 es el píxel siguiente a la derecha, etc.).

Pregunta 1

Al normalizar los datos, ¿normalizo cada instancia (donde mín. y máx. se refieren a los valores dentro de esa fila) o normalizo cada característica en todo el conjunto de datos de formación (donde mín. y máx. de P1 se refieren a los valores dentro de cada ejemplo de formación - potencialmente muchas docenas de miles de valores)?

Pregunta 2

Una vez entrenado el clasificador con datos normalizados, ¿qué hago con una nueva muestra de datos que quiero pasar por el clasificador? ¿Normalizo todas las características entre sí (donde mín. y máx. se refieren a los valores entre P1 y P748 dentro de una única instancia)?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X