Un descargo de responsabilidad:
Mediante el uso informal de un término como el de "generalizar", soy consciente de que me estoy acercando a filosóficas territorio, y que mi pregunta puede ser visto como inadecuado para el CV.
Voy a hacer mi mejor esfuerzo para ser lo suficientemente específica como en el fraseo, para permitir respuestas significativas por las normas de esta comunidad.
Estoy tratando de ganar algo de amplio panorama de los métodos con los cuales ML investigadores y los médicos, estadísticos y matemáticos, abordar la cuestión de si un modelo de éxito aprendido a generalizar , o si no lo ha logrado.
O tal vez mejor, para evitar que enmarcan la cuestión categóricamente: a que grado un modelo aprendido a generalizar?
En otras palabras, estoy pidiendo que formalmente (y siendo prácticos: computable y computacionalmente tratable), existen métodos que pueden ser vistos como abordar el informal pregunta planteada en el título, que de un modelo o método de la capacidad de 'generalizar'.
¿Que pregunta hacer cualquier sentido hasta este punto? Y es posible responder a ella en el contexto de CV?
Algunos comentarios adicionales, tratando de aclarar la cuestión:
Lo que estoy preguntando sobre es, quizás, una taxonomía de los géneros (aceptar alegremente su personal taxonomía, en caso de no canónica existe) de tales métodos, tanto de los 'duros' resultados formales, y los métodos de depender de la evaluación empírica.
Estrechamente relacionado con la 'generalización', y, me temo, igualmente underspecified: la noción de sistematicidad. Un modelo de la capacidad de generalizar a menudo parece ser mencionado junto a la cuestión de si el modelo encontrado un sistemático solución de una tarea que fue entrenada. ¿Que ayudar de alguna manera? (Probablemente no).
Tal vez la siguiente distinción: mencionar los "modelos" de arriba, yo algo confundir a la general de aprendizaje del algoritmo o método, y en particular de las instancias de estos métodos, es decir, los modelos que se construyen mediante el algoritmo a partir de los datos de entrenamiento.
Mi pregunta, a continuación, contiene al menos dos sub-preguntas: maneras de hablar acerca de la " generalización de la capacidad del algoritmo de sí mismo, y que para evaluar el mismo para un modelo de aprendizaje?
Al menos en el contexto de las redes neuronales (la familia de modelos que estoy más familiarizado con), a mí me parece que la 'generalización' pregunta se contesta en su mayoría empíricamente, y sobre todo por un método en particular sólo (tal vez la única disponible, en realidad?): al separar los datos en conjuntos distintos (norma 2 del tren/de prueba, o 3 del tren/de prueba/evaluación), de mantener los datos utilizados para el entrenamiento y evaluación del desempeño independiente.
Como consecuencia, podemos entonces considerar el sobreajuste del modelo (medida por el desempeño de la modelo en la retención de los datos), y encontrar maneras de luchar contra él (regularización).
Lo que me lleva a considerar otra distinción: (i) 'generalización' como el rendimiento sobre el invisible datos que tenemos (plausible) saber que fue generada por la misma función que también se generan los datos de entrenamiento, en contraste a: (ii) la generalización de (invisible) de datos que sólo podríamos hipotetizar o creen ser producidos por el mismo subyacente, el funcionamiento general.
Por mi propia (y todavía muy incompleta) comprensión, parece entonces que estamos normalmente sólo se preocupa de evaluar la 'generalización' del primer tipo (es decir, al medir y comparar el rendimiento más invisible de datos generado con cierto grado de certeza por la misma función que los datos de entrenamiento ... digo, "con cierto grado de certeza", porque nos eligió la función de generación de los datos nosotros mismos, o después de la relativamente natural de la suposición de que la misma función que genera el conjunto particular de datos que hemos utilizado, decir, un conjunto de 1 millón 400 600 px fotos de el baile de los gatos), mientras que la generalización del segundo tipo no es generalmente medido o considerado (es decir, el rendimiento sobre el invisible ejemplos que se encuentran en un sentido verdaderamente nuevo y diferente de la de las encontradas durante el entrenamiento, pero que podríamos creer que son el producto de la misma función que genera los datos de entrenamiento).
He aquí otra gran posibilidad: estoy completamente equivocado con esa caracterización (no es realmente sorprendente, teniendo en cuenta lo confuso todavía estoy sobre todas las cosas ML). Si ese es el caso, mis disculpas por tergiversar (y malentendidos) de los enfoques actuales.