La respuesta corta es "no importa" en la mayoría de los casos. El objetivo de la estandarización es ajustar las variables para que tengan distribuciones (aproximadamente) similares. Esto suele ser necesario porque muchos métodos de aprendizaje estadístico asumen que lo son y, de lo contrario, alguna variable podría abrumar numéricamente a otras durante el ajuste del modelo.
La razón de dividir por la desviación típica es que muchos métodos suponen que las variables se distribuyen normalmente, por lo que la distribución normal estándar $N(0,1)$ (varianza de 1) resulta ser un ideal conveniente. Pero en la mayoría de los casos, esto es arbitrario. Se podría escalar a cualquier valor de varianza razonable (distribución $N(0,a)$ ), y no supondrá ninguna diferencia en el rendimiento de tu modelo.
Así pues, la elección de la estimación de la desviación típica de la muestra rara vez importa, como se señala en documentación de scikit-learn y la respuesta a la pregunta anterior .
Además, aunque se encuentre en una situación en la que la elección de la estimación de la desviación típica pueda suponer una ligera diferencia (por ejemplo, varias muestras normalizadas por separado para distribuciones diferentes), no existe la "mejor" estimación de la desviación típica. La estimación no corregida (dividida por N) tiene en realidad la máxima probabilidad, e incluso la estimación corregida (dividida por N-1) sigue estando sesgada debido a la raíz cuadrada. (Véase artículo wiki para más detalles). Como tal, debe consultar los documentos/guías sobre su método para su elección de la estimación de la desviación estándar.