La respuesta aquí será probablemente específica para la aplicación y el conjunto de datos. En cualquier situación que pueda probar usted mismo, seleccione $m$ (digamos, 5000) filas al azar, hacer lo mismo otra vez, otra vez, ... y comparar los resultados.
También podría aprovechar su situación para extraer alguna muestra de retención, para utilizarla en la verificación independiente del modelo. Si utiliza algún tipo de selección automática de variables, esto podría ser muy valioso.
Si necesita intervalos de confianza para los parámetros del modelo, es posible que sean demasiado largos con este procedimiento de "usar sólo una submuestra aleatoria grande", pero, de todos modos, los intervalos de confianza calculados con el conjunto de datos completo son probablemente demasiado cortos... dependen de suposiciones como "el modelo es absolutamente correcto", "todas las variables se miden sin error", etc., que pueden ser bastante inocuas con conjuntos de datos pequeños, pero no son fiables con conjuntos de datos grandes. Cosas como que las variables sólo se miden con un número finito (pequeño) de decimales correctos limitarán en última instancia lo cortos que pueden ser los intervalos de confianza. Usted mismo, con sus datos, puede investigar estas cuestiones rehaciendo el submuestreo aleatorio muchas veces, trazando los diferentes coeficientes obtenidos de cada submuestra, y comparando la variación entre ellos con la longitud de los intervalos de confianza calculados.