Este es un gran tema, y usted encontrará una amplia gama de razones por las que los datos deben ser, o ya es, bucketized. No todos ellos están relacionados con la precisión predictiva.
En primer lugar, aquí un ejemplo en el que un modelador posible que desee bucketize. Supongo que soy la construcción de un modelo de puntuación de crédito: quiero conocer a la gente de la propensión a pagar un préstamo. En mis datos, tengo una columna que indica el estado de un informe de crédito. Es decir, yo pedí el informe de una agencia de calificación, y la agencia devuelto, decir, su propiedad de puntuación, junto con una variable categórica que indica la fiabilidad de esta puntuación. Este indicador puede ser mucho más una multa de grano que necesito para mis propósitos. Por ejemplo, el "no hay la suficiente información para que el resultado confiable" puede ser dividida en tantas clases como "menos de 20 años de edad", "se mudó recientemente a el país", "no antes de historial de crédito", etc. Muchas de estas clases pueden ser escasamente poblada, y por lo tanto bastante inútil en una regresión o de otro modelo. Para lidiar con esto, puedo querer a la piscina como las clases juntos para consolidar el poder estadístico en un "representante" de la clase. Por ejemplo, puede ser razonable para el uso de un indicador binario "buena información devuelta" frente a la "no información devuelta". En mi experiencia, muchas de las aplicaciones de bucketization caer en este general el colapso de la escasamente poblada categorías tipo.
Algunos de los algoritmos de uso bucketization internamente. Por ejemplo, los árboles de ajuste en el interior de impulsar los algoritmos a menudo pasan la mayoría de su tiempo en un resumen de el paso, donde el continuo de datos en cada nodo se discretiza y el valor de la media de la respuesta en cada segmento se calcula. Esto reduce en gran medida la complejidad computacional de encontrar un adecuado dividir, sin mucho sacrificio en la precisión debido a la estimulación.
También se puede simplemente recibir datos pre-bucketized. Datos discretos es más fácil de comprimir y almacenar - una larga serie de números de punto flotante es casi incompresible, pero cuando discretizado en "alto", "medio" y "bajo", usted puede ahorrar un montón de espacio en la base de datos. Los datos también pueden ser de una fuente destinada a un no-aplicación de modelado. Esto suele pasar mucho cuando recibo los datos de las organizaciones que hacer menos trabajo analítico. Sus datos se utiliza a menudo para la presentación de informes, y se resume a un alto nivel para ayudar con la interpretación de los informes de los laicos. Estos datos todavía pueden ser útiles, pero a menudo, algunas se pierde la energía.
Lo que yo veo menos en valor, a pesar de su posible me puede corregir, es el pre-bucketization de mediciones continuas para el modelado de los efectos. Hay un montón de muy poderosos métodos de ajuste de los efectos no-lineales continuos predictores, y buckeization elimina su capacidad para usar estos. Tiendo a ver esto como una mala práctica.