He estado intentando crear un modelo de regresión multivariante para ajustar mis datos de entrenamiento a la predicción de un valor. He puesto mis datos en una matriz X
con m x n
donde m
es el número de instancias y n
el número de características/predictores. Mi vector de etiquetas es entonces m x 1
. Este es mi código para predecir los valores theta, o parámetros.
theta_matrix = pinv(X'*X)*X'*y_label;
Ahora quiero deslizar los datos en tren y en prueba, e investigando he encontrado que cross-validation
en 10 veces puede ser una buena opción. Si lo hago así, ¿no me daría 10 conjuntos de parámetros theta? ¿Qué elegir entonces?
Y sobre la selección de características, he descubierto que stepwise
puede ser una buena opción, pero creo que no tiene en cuenta que las características pueden estar correlacionadas. ¿Alguna alternativa?