Tengo una PDF (función de densidad de probabilidad) generada a partir de un vector de 1.000.000 de valores empíricos. Esta PDF empírica está muy sesgada hacia la derecha.
En esta forma, no puedo hacer predicciones precisas utilizando una regresión lineal.
Para solucionar esto, ¿hay algún método para encontrar la función F(x) para transformar (es decir, "aplastar") los valores del vector en una distribución normal estándar, de modo que pueda introducir dicho vector transformado en una regresión lineal?
Por supuesto, esto también implicaría encontrar la inversa de F(x) que transforma (es decir, "de-squashes") cualquier predicción de vuelta a la PDF empírica original.
Lo que he probado
Hasta ahora, he conseguido generar la función de densidad a partir de los datos empíricos:
Aquí está el código R:
par(mfrow=c(2,1))
install.packages("bootstrap")
library(bootstrap)
data(stamp)
nobs <- dim(stamp)[1]
hist(stamp$Thickness,col="grey",breaks=100,freq=F)
dens <- density(stamp$Thickness)
lines(dens,col="blue",lwd=3)
plot(density(stamp$Thickness),col="black",lwd=3, main="Simulation to choose density plot")
for(i in 1:10)
{
newThick <- rnorm(nobs,mean=stamp$Thickness,sd=dens$bw*1.5)
lines(density(newThick,bw=dens$bw),col="grey",lwd=3)
}
# If I wanted to do a linear regression to predict stamp thickness,
# what is the function F(x) to "squash" (i.e. transform) the "stamp"
# vector into a normal distribution, and the corresponding inverse
# function Finv(x) to "desquash" (i.e. untransform) any predictions back
# into the original prediction?
Actualización 1
@Andre Silva lo sugirió:
Lo que debe tener una distribución normal son los residuos (predichos frente a los observados) derivados de su modelo de regresión lineal (múltiple).
Según post sobre Regresión Lineal Múltiple :
Después de ajustar la línea de regresión, es importante investigar los residuos para determinar si se ajustan o no a la de una distribución normal. A la izquierda se muestra un gráfico de cuantiles normales de los y - se muestra a la izquierda. A pesar de dos grandes A pesar de dos grandes valores que pueden ser valores atípicos en los datos, los residuos no parecen desviarse de una muestra aleatoria de una distribución normal de manera de manera sistemática.
Actualización 2
Ver Distribución sesgada a la izquierda frente a la simétrica observada para el código R que ilustra que la única preocupación relevante es si los residuos están distribuidos normalmente.