27 votos

Cómo tratar los predictores categóricos en LASSO

Estoy ejecutando un LASSO que tiene algunos predictores de variables categóricas y otras continuas. Tengo una pregunta sobre las variables categóricas. El primer paso que entiendo es dividir cada una de ellas en variables ficticias, estandarizarlas para una penalización justa y luego realizar la regresión. Se plantean varias opciones para tratar las variables ficticias:

  1. Incluya todas menos una de las variables ficticias para cada factor, dejando esa como nivel de referencia. La interpretación de un coeficiente ficticio es relativa a la categoría "de referencia" excluida. El intercepto es ahora la respuesta media para la categoría de referencia.

  2. Agrupe las variables de cada factor de modo que estén todas excluidas o todas incluidas menos una. Creo que eso es lo que sugiere @Glen_b. aquí :

    Normalmente, sí, mantienes tus factores todos juntos. Hay varios paquetes de R que pueden hacer esto, incluyendo glmnet

  3. Incluir todos los niveles, como sugiere @Andrew M aquí :

    También es posible que desee cambiar la función de contraste por defecto, que por por defecto deja fuera un nivel de cada factor (codificación del tratamiento). Pero debido a la penalización del lazo, esto ya no es necesario para la identificabilidad y, de hecho, hace que la interpretación de las seleccionadas. Para ello, establezca

    contr.Dummy <- function(contrasts, ...){
       conT <- contr.treatment(contrasts=FALSE, ...)
       conT
    }
    options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy'))

    Ahora, cualesquiera que sean los niveles de un factor seleccionados, se puede pensar en él como sugiriendo que estos niveles específicos importan omitidos. En el aprendizaje automático, he visto esta codificación referida como codificación one-hot.

Preguntas:

  1. ¿Cuál es la interpretación del interceptar y coeficientes en cada uno de estos enfoques?
  2. ¿Qué consideraciones hay que tener en cuenta para elegir uno de ellos?
  3. ¿Desesescalamos los coeficientes ficticios y los interpretamos como un cambio de apagado a encendido?

10voto

Aaron Puntos 36

Al tratar con variables categóricas en la regresión LASSO, es habitual utilizar un LASSO agrupado que mantenga juntas las variables ficticias correspondientes a una variable categórica concreta (es decir, no se pueden excluir del modelo sólo algunas de las variables ficticias). Un método útil es el LASSO de grupo modificado (MGL) descrito en Choi, Park y Seo (2012) . En este método la penalización es proporcional a la norma de la $\boldsymbol{\beta}$ vector para el conjunto de variables ficticias. En este método se sigue manteniendo una categoría de referencia, por lo que se sigue incluyendo el término de intercepción. Esto le permite tratar con múltiples variables categóricas sin problemas de identificabilidad.

En respuesta a sus preguntas concretas:

(1) LASSO es un método de estimación para los coeficientes, pero los propios coeficientes están definidos por la ecuación inicial del modelo para su regresión. Como tales, la interpretación de los coeficientes es la misma que en una regresión lineal estándar; representan tasas de cambio de la respuesta esperada debido a cambios en las variables explicativas.

(2) La bibliografía anterior recomienda agrupar las variables, pero manteniendo una categoría de referencia. Esto supone implícitamente que se está comparando la presencia de una variable categórica con un modelo que la elimina pero que sigue teniendo un término de intercepción.

(3) Como ya se ha indicado, el método de estimación no afecta a la interpretación de los coeficientes, que vienen fijados por el enunciado del modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X