Tengo un conjunto de datos de 700.000 filas al que estoy aplicando una búsqueda aleatoria. Mi cuadrícula de parámetros tiene el siguiente aspecto:
parameters_gbc = {
"loss":["deviance"],
"learning_rate": [0.01, 0.025, 0.075, 0.1, 0.2],
"max_depth":[3,5,8,10],
"max_features":["log2","sqrt"],
"criterion": ["friedman_mse", "mae"],
"subsample":[0.5, 0.618, 0.8, 0.85, 0.9, 0.95, 1.0],
"n_estimators":[10, 100, 200, 350]
}
Estoy utilizando 20 iteraciones para la búsqueda:
n_iter_search = 20
random_search_gbc = RandomizedSearchCV(gbc, param_distributions=parameters_gbc,
n_iter=n_iter_search)
No tengo mucha experiencia en esto, así que ¿cuánto tiempo debo esperar para que termine la búsqueda? ¿Cómo puedo hacer que mi búsqueda sea más efectiva en el tiempo ya que ha estado funcionando durante las últimas 30 horas?