15 votos

¿Cómo manejar los valores faltantes para preparar los datos para la selección de funciones con LASSO?

Mi situación:

  • pequeño tamaño de la muestra: 116
  • binaria variable de resultado
  • larga lista de variables explicativas: 44
  • las variables explicativas no provienen de la parte superior de mi cabeza; su elección se basó en la literatura.
  • la mayoría de los casos en la muestra y la mayoría de las variables tienen valores perdidos.

Enfoque para la selección de características seleccionadas: LAZO

R glmnet paquete no me deja ejecutar el glmnet rutina, al parecer, debido a la existencia de valores perdidos en mi conjunto de datos. Parece ser que existen diversos métodos para el manejo de los datos faltantes, por lo que me gustaría saber:

  • Hace LAZO imponer cualquier restricción en términos del método de imputación que puedo utilizar?
  • ¿Cuál sería la mejor apuesta para el método de imputación? Idealmente, necesito un método que podría ejecutar en el programa SPSS (preferiblemente) o R.

UPDATE1: Se hizo evidente a partir de algunas de las respuestas que le he de hacer lidiar con más problemas básicos antes de considerar métodos de imputación. Me gustaría añadir aquí nuevas preguntas con respecto a eso. En la respuesta, lo que sugiere que la codificación como el valor de la constante y la creación de una nueva variable con el fin de lidiar con "no aplicable" los valores y el uso de grupo de lazo:

  • Diría usted que si yo uso el grupo de LAZO, me gustaría ser capaz de utilizar el enfoque sugerido para la continua predictores también a los predictores categóricos? Si es así, supongo que sería el equivalente a la creación de una nueva categoría - tengo dudas de que esto puede introducir un sesgo.
  • ¿Alguien sabe si R glmnet paquete es compatible con el grupo de LAZO? Si no, alguien podría sugerir otro que hace que en combinación con la regresión logística? Varias opciones de mencionar grupo de LAZO se puede encontrar en CRAN repositorio, cualquier sugerencia de que el más adecuado para mi caso? Tal vez SGL?

Este es un seguimiento a una pregunta anterior de la mina (Cómo para seleccionar un subconjunto de variables de la original de mi larga lista en orden a realizar el análisis de regresión logística?).

OBS: no soy un estadístico.

15voto

jasonmray Puntos 1303

Cuando un continuo predictor $x$ contiene 'no aplicable' valores es a menudo útil el código es el uso de dos variables:

$$ x_1=\Big{\{} \begin{array}{ll} c & \text{when %#%#% is not applicable}\\ x & \text{otherwise} \end{array} \Bigg{.} $$

donde $x$ es una constante, y

$$ x_2=\Big{\{} \begin{array}{ll} 1 & \text{when %#%#% is not applicable}\\ 0 & \text{otherwise} \end{array} \Bigg{.} $$

Supongamos que el lineal predictor de la respuesta está dada por

$c$$

que se resuelve a

$x$$

al $$\eta = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots$ se mide, o a

$$\eta = \beta_0 + \beta_1 x_1 + \ldots$$

cuando x es 'no aplicable'. La elección de $x$ es arbitrario, y no afecta a las estimaciones de la intersección $$\eta = \beta_0 + \beta_1 c + \beta_2 + \ldots$ o de la pendiente $c$; $\beta_0$ describe el efecto de las $\beta_1$'s" no aplicable " en comparación con al $\beta_2$.

Este no es un enfoque adecuado cuando la respuesta varía de acuerdo a un valor desconocido de $x$: la variabilidad de la 'falta' de grupo se infla, y las estimaciones de otros predictores' coeficientes sesgados debido a factores de confusión. Mejor para imputar los valores perdidos.

Uso de LAZO presenta dos problemas:

  1. La elección de $x=c$ afecta a los resultados como la cantidad de contracción a aplicar depende de las magnitudes de los coeficientes estimados.
  2. Usted necesita asegurarse de que $x$ & $c$ son cualquiera de los dos o ambos a partir del modelo seleccionado.

Estos son problemas muy similares a los que surgen cuando se utiliza el LAZO con los predictores categóricos, así que me gustaría contar que usted podría ser capaz de utilizar el grupo de LAZO idea para resolverlos.

5voto

trish Puntos 31

Varios de Imputación, nunca es un mal enfoque. Usted también podría hacer la Información Completa de Máxima Verosimilitud. Buena revisión y comparación aquí y aquí.

Pero si vas por ese camino, considere el uso de Stan para adaptarse a la ML imputación al mismo tiempo que la regresión como un único modelo Bayesiano, ya que el LAZO es un caso especial de Bayesiana de regresión de todos modos.

0voto

Taha Puntos 71

También puede considerar el enfoque sencillo presentado en el siguiente documento:

Loh, PL, & Wainwright, MJ (2011). Regresión de alta dimensionalidad con datos ruidosos y faltantes: Garantías provechosas con no convexidad . En Advances in Neural Information Processing Systems (págs. 2726-2734).

0voto

talonx Puntos 262

El comando CATREG de Statistics gestiona los datos que faltan con LASSO. Puede excluir casos en la lista o hacer que el procedimiento se impute. Aunque su nombre sugiere que es para variables categóricas, puede establecer la escala en Numérico para manejar el caso continuo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X