Si usted trata de un verdadero fondo no una computadora encontrar todo tipo de tonto patrones?
Sí. (Con énfasis en "tonto") esto se refiere a menudo como el sobreajuste.
Si usted tiene una enorme (y creciente cantidad de información, haría las cosas empiezan a coincidir en un sin sentido?
La respuesta depende de cómo exactamente la cantidad de información es creciente, y exactamente cómo usted mira para los partidos.
Datos suele ser considerado con respecto a los casos y variables. Variables son propiedades, y los casos son conjuntos de propiedades que pertenecen a un conjunto.
Ejemplo: los pacientes son los casos, y las variables son, por ejemplo, el nivel de expresión de un número de genes o de la altura, peso, color de ojos, tamaño de zapato, presión arterial, etc.
- Si "más información", significa que debe medir más variables, por ejemplo, los niveles de expresión de varios genes de los mismos pacientes, entonces es probable que aumente a encontrar la oportunidad de patrones a través de la constante de pacientes.
- Si "más información" significa que medir los niveles de expresión de las mismas variables, por ejemplo, una constante en el conjunto de genes de más pacientes, entonces es probable que disminuya.
Esto se conoce como la maldición de la dimensionalidad, y los Elementos de Aprendizaje Estadístico dar una muy buena explicación en el capítulo 2.
La cantidad de problemas que esto también depende de qué tipo de partido que se está buscando:
- encontrar una distinción (problema de clasificación) entre los grupos de casos es más fácil (más grados de libertad; por lo tanto más propensos a sobreajuste!) de la búsqueda de una función a través de todos los puntos (regresión)
Una formulación diferente:
- Si usted busca cualquier partido (cualquiera de las dos personas en la parte que tenga la misma fecha de nacimiento) posibilidades aumentan con tener más información/casos. Si usted pide a los partidos entre todos los casos (que todos tengan las mismas bithday), las posibilidades disminuyen con la adición de nuevos casos. Pero la posibilidad de encontrar (espurio)
Lo que seguro que las guardias se pone en lugar de deshacerse de estas asociaciones?
Posiblemente la más importante guardia de seguridad-se puede probar (validar) el patrón (o predictivo de la regla) en completamente nuevos casos (preferiblemente en un ciego o doble ciego manera).
Por desgracia, esto es muy costoso y por lo que se hace demasiado raramente (echar un vistazo a los debates acerca de la reproducibilidad en la actual investigación biomédica).
También se puede calcular intervalos de confianza para las predicciones (antes de ir a por un costoso estudio de validación). Si son ridículamente amplia (que lo son si se calcula honestamente y usted tiene muy pocos casos), esto significa que usted necesita para bajar el tono de sus conclusiones en consecuencia.
Otro de salvaguardia durante el modelo set-up es que restringir el modelo a la baja complejidad usted puede permitirse dada la siempre demasiado pequeño* número de casos que usted tiene disponible.
Usted puede y debe hacer comprobaciones de validez basada en el conocimiento que tienen acerca de la aplicación y los datos. Incluso si la capacidad de predecir correctamente y la posibilidad de interpretar el modelo no siempre vienen juntos, en mi humilde opinión es a menudo una garantía importante para mantener a un modelo interpretativo si usted está en el riesgo de sobreajuste. Si, a continuación, el modelo de aprendizaje contradice básica, por ejemplo, las propiedades físicas, que puede ser un síntoma de sobreajuste.
Ejemplo: yo trabajo con espectros de vibración de los tejidos biológicos. Los espectros tienen la propiedad física que debe ser suave (y puedo estar muy seguro de que ya hay 100 años de la física y la química, tanto en la teoría y los experimentos detrás de esa expectativa - incluso si mis mediciones de los espectros son ruidosos). Modelos lineales producen coeficientes para cada una de las dimensiones. Si los coeficientes son ruidosos (= no uniforme) este es un signo de sobreajuste: los coeficientes recogidos ruido de las mediciones, mi algoritmo de entrenamiento no pudo separar la señal del ruido.
Un tipo completamente diferente de salvaguardia es que usted tiene que ser muy clara en el pensamiento: es a menudo fácil para llegar a la respuesta correcta a la pregunta equivocada. Al hacer estadística pruebas de hipótesis, es a menudo fácil de averiguar qué tan probable estoy falsamente a la conclusión de que existe algún patrón determinado que no hay nadie o qué tan probable soy de pasar por alto un patrón dado que no existe realmente es cierta. Sin embargo, lo que quiero saber es a la inversa: dado que he encontrado un patrón, ¿cómo de probable es que esto sea cierto? (esto es cerca de @Ben Ogorek la tasa de falso descubrimiento). El vínculo entre estos inversa preguntas es el porcentaje de patrones de entre todas las combinaciones posibles (hipótesis) que mire. Y, por desgracia, que es desconocido. Si soy un buen investigador, voy a tener una mejor "nariz" para los verdaderos patrones, y esta relación será grande en el pequeño número de pruebas que se llevo a cabo. Ciegamente probar todas las posibles combinaciones tendrán una muy pequeña proporción de la verdadera hipótesis entre todos a prueba las hipótesis.
Para permanecer en su biblia, por ejemplo:
- Como ejemplo de la información y el cuidado de la formulación de hipótesis ("buen olfato"), asume me atrevo a predecir que en el antiguo testamento que los diez mandamientos son importantes, yo puedo "validar" esta "predicción" en contra del nuevo testamento. Conclusión podría ser, por ejemplo, el éxito de la no asesinato, el adulterio, el robo/secuestro commandmentments, mezclado evidencia en el día de reposo.
- Por otro lado, si yo ciegamente probar todas las combinaciones posibles de caracteres desde el antiguo testamento en contra de todos los conocidos mensajes de ET (y posiblemente de todo tipo de citas de Shakespeare más de Gödel a Steven King y Barack Obama) yo probablemente encontrará algunas elaborar método para producir algunos de estos comilla(es) en el antiguo testamento. Pero la proporción de cierto patrón de la producción de reglas de entre todas las posibles transformaciones de los personajes es minuto. Por tanto, espero que "sucesses" son probablemente falsos positivos. Todavía espero que
"validar" la transformación de la regla que produce el patrón para el antiguo testamento, no producirán sensible patrones en el nuevo testamento (mostrando que los patrones eran los falsos positivos y el patrón de la producción de la transformación fue overfit).
Yo diría que es tan raro que si se encuentra a trabajar también en el nuevo testamento que me han de descartar la deshonestidad (por ejemplo, en primicia en el nuevo testamento, durante los parámetros de los modelos de optimización) antes de aceptar que la validación (compare con la plausibilidad de una de @Ben enlaces).
* Me dicen que hay campos donde bastantes casos están disponibles. Sin embargo, personalmente aún no he tenido ese placer.
Usted puede estar interesado en leer sobre no hay almuerzo gratis teoremas. Una de las consecuencias de la NFL-teorema(s) es importante que el "ingrediente" que hace que un algoritmo (heurística) más éxito que otro que se adecue mejor al problema. Por consiguiente, la inclusión (correcto) el conocimiento sobre el problema de la aplicación y el tipo de datos en el algoritmo* puede hacer una diferencia. Sin embargo, estas opciones también incluyen hyperparameters la canción o dirige el comportamiento general del algoritmo de entrenamiento. Buena elección no será posible en función de la experiencia del analista de datos con el método en cuestión.
* o la elección de un algoritmo de acuerdo a su idoneidad para este tipo de problema y este tipo de datos (y con la que el analista de datos tiene la experiencia suficiente para la conclusión de un buen conjunto de hyperparameters).