6 votos

Validación cruzada para regresión logística de lazo

Estoy escribiendo una rutina para regresión logística con lazo en matlab . Entonces, el problema es minimizar la función de probabilidad de registro negativa con el término de penalización

$$\sum \left(\log(1 + e^{X_i' \beta}) - y_i X_i' \beta\right) + \lambda \sum |\beta_i|$$

where $ \ beta$ is the model parameter, $ X_i$ is the $ i$th row of matrix $ X$, and $ y_i$ is the value of observation $ i$.

My first question is for a 5-fold cross-validation, which criterion should I use to pick the best value of $ \ lambda $ ? ¿Debo usar el valor de la función logit en el conjunto de datos de validación o la tasa de clasificación errónea en los datos de validación?

3voto

Rich Dougherty Puntos 1070

La respuesta corta es, su hasta usted, dependiendo de su interés. En el pasado he utilizado AIC para el Lazo.

Sin embargo, parece que usted está usando este modelo para la predicción, y por lo tanto el uso de la mis-tasa de clasificación es una buena idea. Sin embargo la mala clasificación se pueden clasificar de muchas maneras. Está usted interesado en el de la absoluta % clasificados correctamente? O tal vez sólo la atención acerca de los clasificados como 1 (o sí, etc), cómo muchos de los que fueron clasificados correctamente? Me gustaría hacer un poco de lectura en valores Predictivos Positivos, valores predictivos Negativos, etc.

https://en.wikipedia.org/wiki/Positive_and_negative_predictive_values

Además a la hora de la validación cruzada, hay una gran cantidad de criterios que se podrían utilizar para validar el modelo. Una breve lista de otros comunes criterio son los siguientes:

  • $R^2$
  • $MSE$
  • $Mallow's$ $C_p$
  • $AIC$

Mirar hacia arriba y ver que es más relevante para usted!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X