7 votos

¿Rango de valores de los métodos de normalización? min-max, z-score, escala decimal

Estoy trabajando en la normalización (transformación de datos) de los datos y tenía curiosidad por cuatro métodos:

  1. Normalización mín-máx, 2. z-score, 3. z-score desviación media absoluta, y 4. escalado decimal.

Estoy leyendo un libro, por lo que esto es difícil de entender, pero me parece que los tres primeros métodos de normalización dan como resultado un rango de valores entre 0 y 1 y el último con un rango de -1 a 1.

¿Estoy entendiendo esto correctamente o el rango de valores es diferente?

Referencia: Conceptos y técnicas de minería de datos En el libro se menciona:

Para ayudar a evitar la dependencia de la elección de las unidades de medición, los datos deben normalizarse. Esto implica transformar los datos para que caigan dentro de un rango más pequeño o común como [-1,1] o [0,0-1,0].

Como pueden ver, dice "rango común", así que no estoy seguro de si eso significa lo que mencioné anteriormente para los diferentes métodos o si en realidad puede ser "cualquier cosa".

0 votos

Quizá puedas añadir una referencia a qué libro te refieres. Además, la pregunta es difícil de seguir tal y como está redactada, tal vez puedas añadir detalles sobre la normalización a la que te refieres. Saludos

0 votos

@Amzoti Lo he hecho.

7voto

Paul Puntos 34

El escalado mínimo-máximo significa que se transforman linealmente los valores de los datos reales de manera que el mínimo y el máximo de los datos transformados tomen ciertos valores, frecuentemente 0 y 1 o -1 y 1. Esto depende del contexto. Por ejemplo, la fórmula

$ x^\prime := (x-x_{\min})/(x_{\max} -x_{\min} ) $

hace el trabajo para los valores 0 y 1. Aquí $x_{\min}$ es el valor mínimo de los datos que aparecen y de forma similar $x_{\max}$ .

La puntuación z transforma linealmente los datos de tal manera que el valor medio de los datos transformados es igual a 0 mientras que su desviación estándar es igual a 1. Los valores transformados no se sitúan en un intervalo concreto como [0,1]. La fórmula de la transformación es, por tanto, la siguiente

$ x^\prime := (x-\overline{x})/s $

donde $\overline{x}$ denota el valor medio de los datos y $s$ su desviación estándar.

1voto

sami Puntos 11

Yo también estoy trabajando en este problema para mi clase de minería de datos.

El rango para min-max es [nuevo min, nuevo max] o comúnmente [0.0, 1.0] o [ -1.0, 1.0 ].

El rango para la puntuación z utilizando la desviación estándar es [ - infinito, infinito ] aunque es muy poco probable obtener valores extremos.

El rango para la puntuación z que utiliza la desviación media absoluta debe ser el mismo que el de la otra puntuación z.

El rango para el escalado decimal es [ -1, 1 ].

Esto es lo que he contestado, y creo que he acertado, pero tendría problemas para probarlo por la puntuación z.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X