Esta es una buena pregunta, yo estaba en esta posición yo mismo hace un tiempo y se siente muy desalentador.
Conocer la teoría es muy importante en el uso de la máquina de aprendizaje en la práctica. Sin la teoría de aprendizaje de la máquina sólo se convierte en caja negra puede enviar los datos a obtener una respuesta. Gran si la representación gráfica de un conjunto de sentido x y y de un ejemplo no le importa; pero terrible si usted realmente desea hacer uso de el resultado. Un simple ejemplo de esto sería la regresión de orden superior, de regresión (por ejemplo. aX^2+bX+c) casi siempre te dan un mejor ajuste a los datos. Usted puede probar esto con cualquier programa para la representación de datos y la búsqueda de la línea de mejor ajuste (excel es lo que tengo en mente). Como aumentar el orden del polinomio de su error, o R al cuadrado de los valores de los enfoques 1 (1, ajuste perfecto). Parece una obviedad, whak la orden de hasta el 100 y conseguir su perfecta línea de mejor ajuste. Sin embargo, si has comprendido el camino de la regresión funciona como usted sabe, como el número de cuenta en la regresión (X^2,X^1,X^0) aumenta la necesidad de más datos se ajustan a estas características. Este es especialmente el caso cuando usted está considerando la extrapolación a la interpolación. La comprensión de la forma en que funciona el modelo permite utilizar el tipo correcto de modelo para los datos, y obtener respuestas útiles; respuestas que usted entienda el alcance y las limitaciones de.
Así sabemos por qué la teoría de la materia. Pero fuera de la simple ejemplo acerca de ¿cómo saber cuál es el modelo a utilizar. Es una pregunta difícil.
Una buena regla del pulgar leí hace muchos años en este sitio se desea, al menos, 15 veces el número de puntos de datos como tiene características, este es lidiar con el sobreajuste - pero esto no es siempre posible en mi experiencia.
Otra buena regla es elegir un modelo que se siente como el problema. Tengo un problema con el periódico de datos (subidas y bajadas) tal vez piense acerca de lo que los modelos que usted sabe que puede utilizar una onda seno.
Un duro regla es que no hay que confundir la regresión y clasificación de problemas, sentido de la ronda de 1.5 hasta 2, no tiene sentido para la ronda de Rojo a Azul.
Un modelo con menos características es más simple. Modelos simples tienden a optimizar de manera más rápida.
Esta es la regla más importante: si usted realmente no entiende la forma en que funciona el modelo anote el tipo de resultado que usted espera (y aumenta wrt x^2, casas con más habitaciones se venden por más dinero, etc.) entonces, si su modelo no está de acuerdo ya sea encontrar una muy, muy buena razón por la que su intuición era malo o aceptar que usted no sabe lo que ha sucedido y este modelo no es para usted hasta que usted ha hecho más a la lectura.