Tengo varias columnas de características que necesito normalizar a valores entre 0 y 1 (o -1 y 1, etc. -- algo estándar) para poder hacer regresiones usando algoritmos ML (como SVR, KNN, etc.).
El problema es que muchas de las características son desviaciones estándar reales, o permutaciones de desviaciones estándar (lo que significa básicamente que la magnitud de sus valores lleva la misma "información" que las desviaciones estándar).
Estaba tratando de pensar en una manera de normalizar las desviaciones estándar sin perder las proporciones - si hago una normalización regular (restar el mínimo, dividir por el máximo), entonces todas mis normas se vuelven equidistantes.
Entonces me di cuenta de que podía calcular los porcentajes encerrados por la desviación estándar.
¿Cuál es la fórmula para convertir una desviación estándar en su porcentaje (voy a suponer una distribución normal)?
Encontré algo de Z-score... pero lo que realmente necesito es: f(1,0) = 0,68/2 (creo que 0,68 está encerrado por un std, ¿no?) y f(-1,0) = -0,34. Entonces dividiría por 2 y añadiría 0,5 (poniendo los valores entre 0 y 1).
Mi mejor suposición en este momento es la función de error de las desviaciones estándar, que van desde los valores de 0-1, con su punto de inflexión centrado en 0... ¿Es eso correcto?