6 votos

Transformación de una variable cuando la variable original no tiene poder explantory

A veces en multivariante de regresión lineal, habrá una sola variable explicativa, que no contribuye mucho en la manera de poder explicativo. A continuación, vamos a realizar una de transformar en que la variable i.e tomar el registro, la escala es por algún factor etc. y, de repente, esta variable tiene ahora poder explicativo y se considera apto para ser incluido en el modelo.

Es esta una buena práctica? yo.e Simplemente transformar una variable para hacer que se vea como se tiene poder explicativo? La experiencia en el dominio de la guía de lo que debe tobe hecho con la variable...yo.e excluir o incluir después de una transformación?

10voto

Eero Puntos 1612

Esto depende de si usted es un purista, un pragmático, o datos de la draga.

El purista sólo se trate de una transformación, y que sólo se basa en la ciencia y el conocimiento previo y serán elegidos antes de que los datos recogidos (o miró). Este es el método más seguro, pero también pueden suelta a llegar a la comprensión de los datos.

Los datos draga va a intentar todo lo posible la transformación hasta que encuentran uno que les da la respuesta que ellos quieren. Esto puede resultar en resultados impresionantes, pero también termina en más modelos de ajuste y unreproducible resultados.

El pragmático (el más grande y más productivo de grupo) reconoce que hay cosas que podemos aprender a partir de los datos, pero también es cauteloso sobre el ajuste de los datos. Ellos se miran un par de posibles transformaciones que se justifica por la ciencia, o tratar estrías u otros suaviza con una razonable suavidad de la restricción. También lo van a hacer cosas como la validación cruzada para asegurarse de que su experimentación no se ha traducido en más de ajuste y el reinado de las cosas de regreso si lo tiene. A continuación, deberán también ser honesto acerca de lo que hicieron (explicando que transforma fueron experimentado en la discusión) y buscar la validación en un estudio de seguimiento.

Recomiendo el enfoque pragmático.

1voto

Aksakal Puntos 11351

Es legítima la práctica se está describiendo. Como cuestión de hecho, tener todas las variables lineales, es una simplificación de la necesidad. Generalmente, no sabemos lo que es una verdadera relación entre las variables, así que el modelo lineal.

Si le sucede a conocer a las relaciones, a menudo no-lineal, entonces definitivamente ir a por ello.

He aquí un ejemplo, donde el verdadero proceso es $y_t=sin(\beta t)+\varepsilon_t$. Primer modelo con $y_t=\beta' t+\varepsilon_t$, entonces el modelo con una especificación correcta. En el primer caso el coeficiente viene, no significativa, en el segundo caso es significativo.

Código de MATLAB:

rng(0);
x = (1:100)'/100*pi;
% data generating process
y = sin(x) + randn(100,1)/2;

% fit linear x
fit = fitlm(x,y)

% fit sin(x)
fit2 = fitlm(sin(x),y)

plot([y fit.Fitted fit2.Fitted])
legend({'actual' ,'fitted x','fitted sin x'})

SALIDA:

fit = 


Linear regression model:
    y ~ 1 + x1

Estimated Coefficients:
                   Estimate       SE        tStat       pValue  
                   ________    ________    _______    __________

    (Intercept)     0.89621     0.12771     7.0177    2.9539e-10
    x1             -0.12487    0.069885    -1.7868      0.077068


Number of observations: 100, Error degrees of freedom: 98
Root Mean Squared Error: 0.634
R-squared: 0.0315,  Adjusted R-Squared 0.0217
F-statistic vs. constant model: 3.19, p-value = 0.0771

fit2 = 


Linear regression model:
    y ~ 1 + x1

Estimated Coefficients:
                   Estimate      SE       tStat       pValue  
                   ________    _______    ______    __________

    (Intercept)    0.13799     0.13389    1.0306       0.30527
    x1             0.87991     0.18936    4.6468    1.0507e-05


Number of observations: 100, Error degrees of freedom: 98
Root Mean Squared Error: 0.583
R-squared: 0.181,  Adjusted R-Squared 0.172
F-statistic vs. constant model: 21.6, p-value = 1.05e-05

enter image description here

0voto

TrynnaDoStat Puntos 3590

¡Esto es absolutamente recomendable! Si la verdadera relación entre tu respuesta y las variables explicativas es logarítmica, el modelo debería reflejar esto. Por supuesto, nunca sabremos con certeza la naturaleza de la relación verdadera para hacer cosas como la trama de los datos o se ajustan al modelo de diferentes maneras (con y sin una transformación log) y evaluar ajuste.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X