10 votos

¿El aumento del tamaño del conjunto de entrenamiento ayuda a aumentar la precisión de forma permanente o hay un punto de saturación?

Estoy utilizando un clasificador de árboles potenciados que está dando mejor precisión que todos los demás clasificadores lineales que he probado. Tengo casi un número ilimitado de datos de entrenamiento a mi disposición, quería saber si hay un punto de saturación en el entrenamiento más allá del cual, incluso si se aumenta el tamaño de la formación no habría ningún aumento en la precisión en el caso del clasificador de árboles impulsados?

10voto

Marc Claesen Puntos 9818

Hay un punto de saturación.

Aumentar el tamaño de su conjunto de entrenamiento no puede ayudarle a superar los supuestos de su método de modelado. Por ejemplo, si utiliza un modelo lineal para clasificar datos que son separables de forma no lineal, nunca obtendrá una precisión perfecta. Como casi nunca conocemos el proceso subyacente en toda su extensión, el desajuste del modelo es la norma. Como dijo George Box en una famosa ocasión _Todos los modelos son erróneos, pero algunos son útiles_ ".

Los métodos de aprendizaje potentes, como las redes neuronales (también conocidas como aprendizaje profundo) o los bosques aleatorios, pueden ampliar los límites un poco más que los enfoques menos flexibles (por ejemplo, los métodos kernel), pero incluso para ellos hay un límite de aprendizaje. Además, la cantidad de datos y otros recursos que se necesitan para obtener mejoras que merezcan la pena resulta excesiva en algún momento.

0 votos

Sí. Una forma de pensar en los puntos de saturación es que la precisión responde como una curva sigmoidea o en forma de S que aumenta monotónicamente hacia algún límite teórico o supremo a medida que el tamaño de la muestra llega al infinito.

0 votos

Las redes neuronales y el aprendizaje profundo no son lo mismo. Las redes neuronales superficiales pueden ser muy útiles. El aprendizaje profundo es generalmente un subconjunto de las redes neuronales. Pero teóricamente podríamos tener otros modelos base que aprenden abstracciones internas sobre la marcha, y también serían aprendizaje profundo.

0 votos

Actualmente, el aprendizaje profundo y las redes neuronales son totalmente lo mismo. Es sólo un cambio de marca. Claro, si se cambian los modelos base se podría todavía lo llaman aprendizaje profundo, pero para cuando eso ocurra alguien se imaginará otro nombre nuevo.

1voto

icelava Puntos 548

En mi opinión, la cuestión clave es que vamos a nunca conocer el proceso subyacente exactamente .

  • No sabemos qué factores influyen en la pertenencia a una clase. (Soy un firme creyente en los llamados "tamaños de efecto cónicos": esencialmente, todo tiene un impacto en todo lo demás, sólo que en un grado cada vez menor).
  • A menudo, incluso tenemos problemas para hacer operativas esas influencias que hacer saber sobre. Por ejemplo, estoy seguro de que la inteligencia influye en los ingresos, pero estoy igual de seguro de que la "inteligencia" no se mide perfectamente (!) con los tests de inteligencia. Los psicólogos se preocupan mucho por los llamados "validez de constructo" Y con razón.
  • Aunque conozcamos un factor y lo hayamos operacionalizado bien, no sabemos si su influencia es lineal, logarítmica o con alguna otra forma extraña... y tenemos una etiqueta completa dedicado al problema de que la influencia de un predictor puede cambiar sobre su dominio de definición. Y sólo tengo en mente la regresión logística mientras escribo esto - el mismo problema se aplicará también a cualquier otro tipo de clasificador.
  • Y por último, todos estos problemas se magnifican indefinidamente por las posibilidades de interacción: bidireccional, tridireccional, cuádruple, ...

Podríamos pensar que la recopilación de más y más datos y el uso de algoritmos cada vez más sofisticados resolverán estos problemas. Sin embargo, el número de modelos "razonables" que podemos ajustar a un conjunto de datos de cualquier tamaño siempre crecerá al menos con la misma rapidez que el conjunto de datos, ya que hay muchos predictores posibles, desde la fase de la luna hasta lo que desayunaron los participantes. Al final, siempre se tropezará con el equilibrio entre el sesgo y la varianza .

1voto

PeriRamm Puntos 46

Su conjunto de datos de entrenamiento debe ser representativo del conjunto de datos que tendrá que clasificar. Aunque sea enorme, si no capta los casos de esquina, se clasificarán mal. Sin embargo, por otro lado, tendrás que tener cuidado con el sobreajuste, si se aplica a tu caso.

Además, si tienes un conjunto de datos anotados prácticamente ilimitado a tu disposición, puedes dividirlo repetida y aleatoriamente en entrenamiento/validación/prueba para asegurarte de que tienes el mejor modelo posible. Probablemente tardarás días en ejecutarlo, pero creo que merecerá la pena.

1voto

unk2 Puntos 36

El rendimiento máximo del conjunto de modelos de predicción posibles tiene un límite superior. Como ejemplo, veamos un resultado binario $y$ . Para simplificar supongamos que sabemos que $y = 1$ con una probabilidad previa de 0,5. Esto significa que ambos resultados son igualmente probables. Sea $x$ sea un vector que contenga los valores de sus predictores. Por Bayes:

$P(y=1|x)=\frac{P(x|y=1)}{P(x|y=1)+P(x|y=0) }$ .

El mejor modelo teórico de predicción predecirá el $y$ que tiene una mayor probabilidad de producir $x$ . Pero a menos que uno de los dos términos del denominador sea cero, el teorema de Bayes le da una probabilidad no nula de que la mejor predicción sea errónea.

El ejemplo más sencillo sería $y$ y $x$ siendo completamente ajeno a ello. Entonces usted predice cualquier cosa para $y$ y se equivocará siempre con una probabilidad de 0,5. Y ningún método puede mejorar eso.

De la mejor manera su algoritmo convergerá hacia el óptimo teórico. Entonces, por lo general, no alcanzará el rendimiento óptimo con cualquier tamaño de muestra finito, sino que las mejoras serán cada vez menores.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X