2 votos

Selección de variables y regresión logística

Estoy utilizando Matlab, tengo un $600 \times 9$ en la que cada fila representa las 9 características que intento evaluar mediante regresión logística.

  1. Entiendo que tengo que escalar las características, pero ¿tengo que hacerlo tanto en el conjunto de entrenamiento como en el de pruebas?

  2. Tengo 9 características, ¿hasta qué grado debo realizar la regularización?... ¿hasta qué grado de orden superior para 9 características debo tener en cuenta?

  3. ¿Cómo puedo comprobar qué funciones contribuyen más o menos?

  4. ¿Cómo divido mi conjunto de entrenamiento y de pruebas, qué proporción es la más idónea?

2voto

cbeleites Puntos 12461

(Creo que sería mejor hacer las 4 preguntas 4 preguntas...)

Pero..:

  1. Olvídese de la división en preprocesamiento y ajuste del modelo. Trate el preprocesamiento como parte de su modelo. Así queda claro que, haga lo que haga con los datos de entrenamiento, también tendrá que hacerlo con los datos de prueba. También dejará claro que muchos pasos de preprocesamiento deben ajustarse por separado para cada "modelo sustituto" durante la validación cruzada.

  2. Esto no puede responderse en general, sino sólo para un problema determinado.

  3. Busque aquí "contribución". Resulta que hoy había una pregunta al respecto...

  4. Más información sobre la validación cruzada. Hay algunas reglas que debes tener en cuenta para la división (que puedes encontrar aquí), pero ya puedo decirte que la proporción de datos de entrenamiento y de prueba es bastante poco crítica para la validación cruzada. En caso de que desee hacer una división de una sola vez (hold-out set), puedo "anunciar" mi reciente documento sobre "Consideraciones sobre el tamaño de la muestra en los modelos de clasificación" que es también disponible en arXiv .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X