He implementado la regresión lineal manualmente, con fines de aprendizaje, y utilizo el método "Conjunto de datos "Auto MPG como los datos del juguete al que lo aplico.
Se me ha ocurrido que no sé cómo comprobar la eficacia de mi modelo. Con la clasificación puedo comprobar la clase predicha frente a la clase real, pero ¿qué hago con la regresión?
EDIT: Por supuesto, estoy dividiendo los datos que tengo en datos de entrenamiento + datos de prueba... Estoy hablando de evaluar los resultados cuando aplico el modelo en los datos de prueba.
Por ejemplo, con mi modelo predigo 16,76 mpg para un coche cuyo valor real en el conjunto de datos es 15,5. ¿Cómo puedo decidir si esto es "bueno" o "malo"? ¿Cómo puedo decidir si se trata de una predicción "buena" o "mala"? Estoy pensando en utilizar algunos umbrales ("si el valor predicho está dentro del intervalo [real-epsilon, real+epsilon] => ¡bien!"), pero ¿es éste un buen enfoque? E incluso si lo es, ¿cómo elijo los valores épsilon?
Soy consciente de que lo más probable es que no haya una respuesta clara, pero cualquier sugerencia sobre el enfoque a seguir sería de gran ayuda.
EDIT: He decidido adoptar el siguiente enfoque: para cada muestra de datos de prueba, calculo la distancia entre el valor predicho y los datos de prueba como
abs(predicted_value - actual_value) * 100 / actual_value
es decir, a qué distancia está la predicción del valor real, expresado en % del valor real. Cualquier comentario es bienvenido, ya que esto es sólo una idea que he tenido, y no estoy seguro de si es la "mejor práctica".