13 votos

¿Qué es bucketization?

Yo he ido a su alrededor para encontrar una clara explicación de la "bucketization" en el aprendizaje de máquina sin suerte. Lo que yo entiendo es que bucketization es similar a la cuantización en procesamiento digital de señales, donde una amplia gama de continuo de los valores es reemplazado con un valor discreto. Es esto correcto?

¿Cuáles son los pros y los contras (además del obvio impacto de la pérdida de información) de la aplicación de bucketization? Hay reglas de oro sobre cómo aplicar bucketization? ¿Hay alguna guía/algoritmos para la aplicación de bucketization por delante de la aplicación de la máquina de aprendizaje?

4voto

eldering Puntos 3814

Este es un gran tema, y usted encontrará una amplia gama de razones por las que los datos deben ser, o ya es, bucketized. No todos ellos están relacionados con la precisión predictiva.

En primer lugar, aquí un ejemplo en el que un modelador posible que desee bucketize. Supongo que soy la construcción de un modelo de puntuación de crédito: quiero conocer a la gente de la propensión a pagar un préstamo. En mis datos, tengo una columna que indica el estado de un informe de crédito. Es decir, yo pedí el informe de una agencia de calificación, y la agencia devuelto, decir, su propiedad de puntuación, junto con una variable categórica que indica la fiabilidad de esta puntuación. Este indicador puede ser mucho más una multa de grano que necesito para mis propósitos. Por ejemplo, el "no hay la suficiente información para que el resultado confiable" puede ser dividida en tantas clases como "menos de 20 años de edad", "se mudó recientemente a el país", "no antes de historial de crédito", etc. Muchas de estas clases pueden ser escasamente poblada, y por lo tanto bastante inútil en una regresión o de otro modelo. Para lidiar con esto, puedo querer a la piscina como las clases juntos para consolidar el poder estadístico en un "representante" de la clase. Por ejemplo, puede ser razonable para el uso de un indicador binario "buena información devuelta" frente a la "no información devuelta". En mi experiencia, muchas de las aplicaciones de bucketization caer en este general el colapso de la escasamente poblada categorías tipo.

Algunos de los algoritmos de uso bucketization internamente. Por ejemplo, los árboles de ajuste en el interior de impulsar los algoritmos a menudo pasan la mayoría de su tiempo en un resumen de el paso, donde el continuo de datos en cada nodo se discretiza y el valor de la media de la respuesta en cada segmento se calcula. Esto reduce en gran medida la complejidad computacional de encontrar un adecuado dividir, sin mucho sacrificio en la precisión debido a la estimulación.

También se puede simplemente recibir datos pre-bucketized. Datos discretos es más fácil de comprimir y almacenar - una larga serie de números de punto flotante es casi incompresible, pero cuando discretizado en "alto", "medio" y "bajo", usted puede ahorrar un montón de espacio en la base de datos. Los datos también pueden ser de una fuente destinada a un no-aplicación de modelado. Esto suele pasar mucho cuando recibo los datos de las organizaciones que hacer menos trabajo analítico. Sus datos se utiliza a menudo para la presentación de informes, y se resume a un alto nivel para ayudar con la interpretación de los informes de los laicos. Estos datos todavía pueden ser útiles, pero a menudo, algunas se pierde la energía.

Lo que yo veo menos en valor, a pesar de su posible me puede corregir, es el pre-bucketization de mediciones continuas para el modelado de los efectos. Hay un montón de muy poderosos métodos de ajuste de los efectos no-lineales continuos predictores, y buckeization elimina su capacidad para usar estos. Tiendo a ver esto como una mala práctica.

4voto

Colin Wren Puntos 11

De acuerdo con el artículo "de Alto Nivel y Bajo Nivel en Ciencia de Datos" bucketization es

El bucketization paso (a veces llamado multivariante binning) consiste en la identificación de las mediciones (y combinaciones de 2-3 métricas) con alto poder predictivo de combinar y de reciclaje adecuado de los mismos, para reducir la cubeta de la varianza, mientras que mantener los cubos lo suficientemente grande.

Así que mi entendimiento es que con avidez bin los datos de acuerdo a la mayoría de los predictivo características, a continuación, analizar los subgrupos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X