2 votos

¿Realmente importa el número de filas más allá de un punto?

Al trabajar con cualquier algoritmo de aprendizaje automático, ¿importa realmente el número de filas a partir de cierto punto?

He mantenido algunos algoritmos (árbol de decisión en este caso) funcionando durante días, y la precisión que obtengo es similar a la que obtengo inmediatamente para 5000 filas. Tengo la sensación de que ejecutarlo en todo el conjunto de datos es más bien una "comprobación" para verificar los resultados que se obtienen con 5000 filas.

¿Existe algún estudio sobre cuántas filas son realmente necesarias y cuánto varían los resultados al aumentar el número de filas?

10voto

kjetil b halvorsen Puntos 7012

La respuesta aquí será probablemente específica para la aplicación y el conjunto de datos. En cualquier situación que pueda probar usted mismo, seleccione $m$ (digamos, 5000) filas al azar, hacer lo mismo otra vez, otra vez, ... y comparar los resultados.

También podría aprovechar su situación para extraer alguna muestra de retención, para utilizarla en la verificación independiente del modelo. Si utiliza algún tipo de selección automática de variables, esto podría ser muy valioso.

Si necesita intervalos de confianza para los parámetros del modelo, es posible que sean demasiado largos con este procedimiento de "usar sólo una submuestra aleatoria grande", pero, de todos modos, los intervalos de confianza calculados con el conjunto de datos completo son probablemente demasiado cortos... dependen de suposiciones como "el modelo es absolutamente correcto", "todas las variables se miden sin error", etc., que pueden ser bastante inocuas con conjuntos de datos pequeños, pero no son fiables con conjuntos de datos grandes. Cosas como que las variables sólo se miden con un número finito (pequeño) de decimales correctos limitarán en última instancia lo cortos que pueden ser los intervalos de confianza. Usted mismo, con sus datos, puede investigar estas cuestiones rehaciendo el submuestreo aleatorio muchas veces, trazando los diferentes coeficientes obtenidos de cada submuestra, y comparando la variación entre ellos con la longitud de los intervalos de confianza calculados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X