8 votos

¿Por qué sería un modelo estadístico overfit si dado un conjunto enorme de datos?

Mi proyecto actual me pueden requerir para construir un modelo para predecir el comportamiento de un determinado grupo de personas. el conjunto de datos de entrenamiento contiene sólo 6 variables (id es sólo para fines de identificación):

id, age, income, gender, job category, monthly spend

en que monthly spend es la variable de respuesta. Pero el conjunto de datos de entrenamiento contiene aproximadamente 3 millones de filas, y el conjunto de datos (que contiene id, age, income, gender, job category , pero no hay respuesta de la variable) para predecir contiene 1 millón de filas. Mi pregunta es: ¿hay cualquier problema potencial si me tiro demasiadas filas (3 millones de dólares en este caso) en un modelo estadístico?Entiendo que el cómputo de los gastos es una de la preocupación, hay otras preocupaciones? Hay libros o papeles que explicar plenamente el conjunto de datos de tamaño problema?

22voto

Zizzencs Puntos 1358

Hay dos tipos de problemas que pueden surgir:

1) problemas de la Computadora debido a que el conjunto de datos es demasiado grande. En estos días, un par de millones de filas con 6 columnas no es sólo que, a lo grande. Pero, dependiendo de su programa, su equipo, su cantidad de memoria RAM y probablemente otras cosas, podría estancar.

2) problemas Estadísticos. Aquí, un problema como el de discutir tendrá un "problema" que yo sepa: Incluso pequeñas serán los efectos altamente significativos. Esto no es realmente un problema con la regresión, es un problema con los valores de "p". Mejor mirar los tamaños del efecto (parámetros de regresión).

3) Otro tipo de problema con su modelo no es debido al número de filas, pero la naturaleza de la variable de respuesta (mensual pasar). A pesar de regresión OLS no hacer suposiciones acerca de la distribución de la respuesta (sólo sobre el error), sin embargo, los modelos con dinero como variable dependiente a menudo no-normalidad de los errores. Además, a menudo tiene sentido, de manera sustantiva, a tomar el registro de la respuesta. Si esto es así en tu caso depende de exactamente lo que usted está tratando de hacer.

6voto

jasonmray Puntos 1303

Lo importante es el número de individuos (filas) en comparación con el número de coeficientes que usted necesita para la estimación del modelo que desea ajustar. Las típicas reglas de pulgar sugieren unos 20 observaciones por coeficiente, como mínimo, por lo que debe ser capaz de estimar hasta 150.000 coeficientes—seguramente más que adecuado para sus cuatro predictores.

De hecho, usted tiene una oportunidad, no un problema, en este caso: para encajar bastante complejo modelo que incluye las relaciones no lineales de la respuesta a los predictores, y las interacciones entre los predictores; que pueden predecir la respuesta mucho mejor que uno más simple en el que las relaciones de la respuesta a los predictores, se asume lineal y aditiva.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X