6 votos

¿De qué maneras podemos, en principio, evaluamos si un modelo de éxito en la generalización?

Un descargo de responsabilidad:

Mediante el uso informal de un término como el de "generalizar", soy consciente de que me estoy acercando a filosóficas territorio, y que mi pregunta puede ser visto como inadecuado para el CV.

Voy a hacer mi mejor esfuerzo para ser lo suficientemente específica como en el fraseo, para permitir respuestas significativas por las normas de esta comunidad.


Estoy tratando de ganar algo de amplio panorama de los métodos con los cuales ML investigadores y los médicos, estadísticos y matemáticos, abordar la cuestión de si un modelo de éxito aprendido a generalizar , o si no lo ha logrado.

O tal vez mejor, para evitar que enmarcan la cuestión categóricamente: a que grado un modelo aprendido a generalizar?

En otras palabras, estoy pidiendo que formalmente (y siendo prácticos: computable y computacionalmente tratable), existen métodos que pueden ser vistos como abordar el informal pregunta planteada en el título, que de un modelo o método de la capacidad de 'generalizar'.

¿Que pregunta hacer cualquier sentido hasta este punto? Y es posible responder a ella en el contexto de CV?


Algunos comentarios adicionales, tratando de aclarar la cuestión:

  • Lo que estoy preguntando sobre es, quizás, una taxonomía de los géneros (aceptar alegremente su personal taxonomía, en caso de no canónica existe) de tales métodos, tanto de los 'duros' resultados formales, y los métodos de depender de la evaluación empírica.

  • Estrechamente relacionado con la 'generalización', y, me temo, igualmente underspecified: la noción de sistematicidad. Un modelo de la capacidad de generalizar a menudo parece ser mencionado junto a la cuestión de si el modelo encontrado un sistemático solución de una tarea que fue entrenada. ¿Que ayudar de alguna manera? (Probablemente no).

  • Tal vez la siguiente distinción: mencionar los "modelos" de arriba, yo algo confundir a la general de aprendizaje del algoritmo o método, y en particular de las instancias de estos métodos, es decir, los modelos que se construyen mediante el algoritmo a partir de los datos de entrenamiento.

    Mi pregunta, a continuación, contiene al menos dos sub-preguntas: maneras de hablar acerca de la " generalización de la capacidad del algoritmo de sí mismo, y que para evaluar el mismo para un modelo de aprendizaje?

  • Al menos en el contexto de las redes neuronales (la familia de modelos que estoy más familiarizado con), a mí me parece que la 'generalización' pregunta se contesta en su mayoría empíricamente, y sobre todo por un método en particular sólo (tal vez la única disponible, en realidad?): al separar los datos en conjuntos distintos (norma 2 del tren/de prueba, o 3 del tren/de prueba/evaluación), de mantener los datos utilizados para el entrenamiento y evaluación del desempeño independiente.

    Como consecuencia, podemos entonces considerar el sobreajuste del modelo (medida por el desempeño de la modelo en la retención de los datos), y encontrar maneras de luchar contra él (regularización).

    Lo que me lleva a considerar otra distinción: (i) 'generalización' como el rendimiento sobre el invisible datos que tenemos (plausible) saber que fue generada por la misma función que también se generan los datos de entrenamiento, en contraste a: (ii) la generalización de (invisible) de datos que sólo podríamos hipotetizar o creen ser producidos por el mismo subyacente, el funcionamiento general.

    Por mi propia (y todavía muy incompleta) comprensión, parece entonces que estamos normalmente sólo se preocupa de evaluar la 'generalización' del primer tipo (es decir, al medir y comparar el rendimiento más invisible de datos generado con cierto grado de certeza por la misma función que los datos de entrenamiento ... digo, "con cierto grado de certeza", porque nos eligió la función de generación de los datos nosotros mismos, o después de la relativamente natural de la suposición de que la misma función que genera el conjunto particular de datos que hemos utilizado, decir, un conjunto de 1 millón 400 600 px fotos de el baile de los gatos), mientras que la generalización del segundo tipo no es generalmente medido o considerado (es decir, el rendimiento sobre el invisible ejemplos que se encuentran en un sentido verdaderamente nuevo y diferente de la de las encontradas durante el entrenamiento, pero que podríamos creer que son el producto de la misma función que genera los datos de entrenamiento).

    He aquí otra gran posibilidad: estoy completamente equivocado con esa caracterización (no es realmente sorprendente, teniendo en cuenta lo confuso todavía estoy sobre todas las cosas ML). Si ese es el caso, mis disculpas por tergiversar (y malentendidos) de los enfoques actuales.

2voto

avid Puntos 161

Una noción importante de generalización, especialmente en el aprender de máquina, es exactitud predictiva: el grado en que un alumno puede predecir el valor de la variable dependiente en los casos no fue entrenado con. Exactitud predictiva puede estimarse con una amplia variedad de técnicas, incluyendo una división de tren de prueba, validación cruzada y bootstrapping.

2voto

smartappers Puntos 11

Para medianas y grandes conjuntos de datos, la mayoría de los profesionales de la utilización de un conjunto de exclusiones. Esto es lo que ustedes se refieren como el entrenamiento, validación y prueba. Un conjunto de exclusiones consta de datos que el modelo nunca ha visto antes. Si su modelo se generaliza también en el conjunto de exclusiones, entonces presumiblemente se va a generalizar igual de bien en directo, datos de producción.

En relación a tu última viñeta en la exclusión de conjuntos -- no hay dos tipos de generalización. Sólo hay un tipo, y por lo tanto es llamado simplemente a la posibilidad de generalizar. Si el conjunto de datos de entrenamiento no representan datos del mundo real, entonces no hay ningún punto en la construcción de un modelo. Desafortunadamente no hay una regla simple para saber lo cerca que sus datos de entrenamiento se representan los datos de producción. Usted sólo tiene que utilizar el buen juicio (por ejemplo, el modelo de compilación de datos deben obtenerse a través de los mismos sistemas de producción que se tire desde cuando el modelo es implementado).

La posibilidad de generalizar a menudo no es estática igual que el mundo real es a menudo no es estática. Si su modelo se utiliza para tomar decisiones importantes, que a menudo también hacer post-monitoreo de la producción de la misma para asegurarse de que sigue a generalizar. Como su modelo de generalización se deteriora con el tiempo, como es el caso más frecuente con el mundo real (por ejemplo, financieros) de datos, entonces usted necesita para hacer una reforma.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X