Mi proyecto actual me pueden requerir para construir un modelo para predecir el comportamiento de un determinado grupo de personas. el conjunto de datos de entrenamiento contiene sólo 6 variables (id es sólo para fines de identificación):
id, age, income, gender, job category, monthly spend
en que monthly spend
es la variable de respuesta. Pero el conjunto de datos de entrenamiento contiene aproximadamente 3 millones de filas, y el conjunto de datos (que contiene id, age, income, gender, job category
, pero no hay respuesta de la variable) para predecir contiene 1 millón de filas. Mi pregunta es: ¿hay cualquier problema potencial si me tiro demasiadas filas (3 millones de dólares en este caso) en un modelo estadístico?Entiendo que el cómputo de los gastos es una de la preocupación, hay otras preocupaciones? Hay libros o papeles que explicar plenamente el conjunto de datos de tamaño problema?