La regresión cuantil no hace suposiciones de distribución, es decir, suposiciones sobre los residuos, aparte de suponer que la variable de respuesta es casi continua. Si se aborda el problema de la estimación de un único cuantil como función de los predictores X, los principales problemas que pueden surgir son una especificación errónea del predictor lineal $X\beta$ por infraajuste, es decir, por no incluir efectos no lineales (un problema común) o efectos de interacción. Existen al menos dos enfoques recomendados. En primer lugar, si el tamaño de la muestra es grande, ajuste un modelo más flexible. Un buen compromiso es permitir que todos los efectos principales sean no lineales utilizando splines de regresión como splines cúbicos restringidos (splines naturales). Entonces no hay nada que deba comprobarse, excepto las interacciones. El segundo enfoque consiste en esperar que el modelo sea simple (¿por qué?) pero permitir que sea complejo, para luego evaluar el impacto de las adiciones complejas al modelo simple. Por ejemplo, podemos evaluar las contribuciones combinadas de los términos no lineales o de interacción, o de ambos. A continuación se ofrece un ejemplo, utilizando el modelo R rms
y quantreg
paquetes. Se utiliza una forma de interacción de compromiso, para limitar el número de parámetros. Las interacciones se restringen para que no sean doblemente no lineales.
require(rms)
# Estimate 25th percentile of y as a function of x1 and x2
f <- Rq(y ~ rcs(x1, 4) + rcs(x2, 4) + rcs(x1, 4) %ia% rcs(x2, 4), tau=.25)
# rcs = restricted cubic spline, here with 4 default knots
# %ia% = restricted interaction
# To use general interactions (all cross product terms), use:
# f <- Rq(y ~ rcs(x1, 4)*rcs(x2, 4), tau=.25)
anova(f) # get automatic combined 'chunk' tests: nonlinearity, interaction
# anova also provides the combined test of complexity (nonlin. + interact.)