2 votos

centrar y escalar (estandarizar) una variable: ¿utilizar la desviación típica de la población o de la muestra?

Para centrar y escalar una variable (por ejemplo, antes de una regresión, o de una visualización), el procedimiento estándar, por supuesto, es restar la media y luego dividir por la desviación típica.

Pero, ¿se considera preferible utilizar la desviación típica de la población (es decir, dividida por n) o la desviación típica de la muestra (dividida por n-1)? ¿Depende del uso que se haga?

Curiosamente, las funciones estándar de R y Python parecen hacer elecciones diferentes aquí. La función sklearn.preprocessing.scale() de Python utiliza la desviación estándar poblacional; la función scale() de R utiliza la desviación estándar muestral.

(NOTA: hay una pregunta previa aquí (pero se refiere a un método psicológico muy específico, y la única respuesta no está realmente fundamentada por nada).

2voto

mathguy Puntos 864

La respuesta corta es "no importa" en la mayoría de los casos. El objetivo de la estandarización es ajustar las variables para que tengan distribuciones (aproximadamente) similares. Esto suele ser necesario porque muchos métodos de aprendizaje estadístico asumen que lo son y, de lo contrario, alguna variable podría abrumar numéricamente a otras durante el ajuste del modelo.

La razón de dividir por la desviación típica es que muchos métodos suponen que las variables se distribuyen normalmente, por lo que la distribución normal estándar $N(0,1)$ (varianza de 1) resulta ser un ideal conveniente. Pero en la mayoría de los casos, esto es arbitrario. Se podría escalar a cualquier valor de varianza razonable (distribución $N(0,a)$ ), y no supondrá ninguna diferencia en el rendimiento de tu modelo.

Así pues, la elección de la estimación de la desviación típica de la muestra rara vez importa, como se señala en documentación de scikit-learn y la respuesta a la pregunta anterior .

Además, aunque se encuentre en una situación en la que la elección de la estimación de la desviación típica pueda suponer una ligera diferencia (por ejemplo, varias muestras normalizadas por separado para distribuciones diferentes), no existe la "mejor" estimación de la desviación típica. La estimación no corregida (dividida por N) tiene en realidad la máxima probabilidad, e incluso la estimación corregida (dividida por N-1) sigue estando sesgada debido a la raíz cuadrada. (Véase artículo wiki para más detalles). Como tal, debe consultar los documentos/guías sobre su método para su elección de la estimación de la desviación estándar.

1voto

mat_geek Puntos 1367

En la práctica, la varianza de la población no suele conocerse. Así que no tiene elección. Si se conoce la varianza de la población y, por tanto, también la desviación típica de la población, lo mejor es escalar por la desviación típica de la población.

0voto

Steff Muller Puntos 16

Yo me preguntaba lo mismo y tiendo a pensar que esto debería depender del uso previsto.

Si el motivo de la normalización es utilizar la versión normalizada para trabajos posteriores relativos a nuevas muestras (como la normalización previa a un proceso de aprendizaje automático), puedo entender que los valores en cuestión se considerarían una muestra y la desviación típica se calcularía como la de una muestra.

Sin embargo, si va a utilizar los valores de muestra que tiene a mano para una comparación dentro de sí mismos sin más aplicación de nuevas muestras, como en la enlace que compartiste:

En este contexto, como en otros, la desviación típica se utiliza para hacer para hacer comparables las puntuaciones y no se hace ninguna inferencia estadística a una población. población.

entonces consideraría las muestras en cuestión como el población que se compara y tienden a utilizar una desviación típica de la población.

Puede que no sea un buen ejemplo, pero supongamos que tomamos una muestra de 10 observaciones de una población. Si, por alguna razón, sólo necesito producir una comparación estandarizada de distancias entre esas 10 observaciones (sin ninguna inferencia estadística a otra nueva muestra distinta de esas 10), entonces esas 10 observaciones se convierten en mi población para la comparación dentro de ellas mismas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X