Otro enfoque personalizable que puede explorar es simplemente dividir todos los valores por el valor máximo y llevarlo a la potencia de un valor de forma positiva ( $\gamma$ ) que mejor satisfaga sus objetivos de transformación. Véase el ejemplo siguiente en R, en el que la línea discontinua es el caso simple de dividir x
por max(x)
:
scaled_power_transform <- function(x, gamma=0.25)
{
## x must be nonnegative
stopifnot(all(x >= 0))
## scale to [0, 1]
x_scaled <- x / max(x)
## customise the shape
x_scaled <- x_scaled^gamma
return(invisible(x_scaled))
}
x <- seq(0, 1000)
plot(x = x, y = scaled_power_transform(x, gamma = 0.1), col = 'blue',
type = 'l', lwd = 2, ylab = 'x transformed')
lines(x, x/max(x), lty = 2)
lines(x = x, y = scaled_power_transform(x, gamma = 0.5), col = 'green',
type = 'l', lwd = 2)
lines(x = x, y = scaled_power_transform(x, gamma = 2), col = 'red',
type = 'l', lwd = 2)
legend(x = 0.6*max(x), y=0.3,
legend = c(expression(paste(gamma,'= 0.1')),
expression(paste(gamma,'= 0.5')),
expression(paste(gamma,'= 2.0'))),
pch = rep('*', 3), col = c('blue', 'green', 'red'))
Creado el 2020-10-10 por el paquete reprex (v0.3.0)
0 votos
¿Qué aspecto tienen sus datos? ¿Están acotados los valores?
0 votos
@spencer Este foro acoge (IMHO) a todo el mundo. Estás perfectamente bien. ¿Puede usted por favor un poco más de detalles acerca de sus datos? ¿Son tus datos no negativos? ...
0 votos
Mis datos serán no negativos y no tienen límite.
7 votos
Porque cualquier función no decreciente de $[0, \infty) \to [0, 1]$ será el truco, tienes mucha flexibilidad. Pero algunos métodos serán mejores que otros, dependiendo de la aplicación. ¿Cuál es su propósito al buscar esa reexpresión?
2 votos
Estoy midiendo el contenido a través de muchas dimensiones diferentes y quiero ser capaz de hacer comparaciones en términos de lo relevante que es un determinado contenido. Además, quiero que los valores de estas dimensiones sean explicables y fáciles de entender.
2 votos
@Spencer ¿Exactamente cómo se mide el contenido y la "relevancia"? Por ejemplo, en escalas arbitrarias, como recuentos, proporciones, frecuencias de vistas, correlaciones con otros contenidos, etc. etc. Diferentes tipos de mediciones se benefician de diferentes tipos de reexpresiones.
1 votos
Los estoy midiendo en escalas arbitrarias. Cuántos años tiene el contenido. Cuántos "puntos" recibe un contenido. El "interés" autodeclarado en el ámbito del contenido.
2 votos
Una de las transformaciones más sencillas que puede utilizar es convertir sus datos en puntuaciones cuantílicas.
0 votos
¿Qué tal si utilizamos los rangos de percentiles?