7 votos

La comprensión de Bolsas de Regresión Logística (y una Implementación de Python)

Estoy tratando de entender un artículo académico que estoy leyendo sobre bolsas de regresión logística para la comercialización de atribución -- http://www.turn.com.akadns.net/sites/default/files/whitepapers/TURN_Tech_WP_Data-driven_Multi-touch_Attribution_Models.pdf

En particular, este párrafo:

Paso 1. Para un determinado conjunto de datos, muestra una proporción (ps) de todos los observaciones de la muestra y una proporción (pc) de todas las covariables. Ajuste un modelo de regresión logística en la muestra de las covariables y la datos de muestreo. Registro de los coeficientes estimados -- recomendamos escoger ps y pc tomar los valores de alrededor de 0.5 si tanto la variabilidad y la exactitud son de la preocupación

Por favor alguien puede explicar qué significa esto en la (esperemos) la llanura inglés? Basado en mi entendimiento, la idea es seguir ejecutando la regresión logística en .5 azar subconjuntos de los datos de ejemplo y, a continuación, el promedio de todo el registro que se impar coeficientes que cumplir un .5 selección de umbral?

Completamente puntos de Bonificación Opcional 1: En una nota de lado, es que esta aplicación similar a la idea de aleatorizado de regresión logística en scikit para aprender python? Si no, ¿cuál es la diferencia? http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RandomizedLogisticRegression.html

Completamente puntos de Bonificación Opcional 2: ¿hay una manera de incorporar ordenó efectos en bolsas modelo de regresión logística (por ejemplo, el orden en que las variables predictoras, en este caso los anuncios, apareció -- sin embargo, esto es de secundaria preocupación a la pregunta principal)

9voto

Corey Ross Puntos 1096

El embolsado es un conjunto de método en donde modelo de tren en muestras independientes de los datos de entrenamiento y combinar (media, votos, ...) de sus predicciones. Esto generalmente produce predicciones más exactas de los modelos individuales. Técnicamente embolsado significa que las muestras son extraídas con reemplazo y del mismo tamaño que el conjunto de datos completo. Sin embargo, el término se aplica comúnmente a otros esquemas de muestreo.

Bolsas de Regresión Logística significa embolsado mediante regresión logística para los modelos individuales, pero es embolsado en el sentido riguroso de la palabra. Ellos son realmente la combinación de submuestreo (es decir, el muestreo sin reemplazo) con aleatorizado subespacios (muestreo de las columnas/características).

En la cita ps es la fracción de las filas/artículos incluidos en cada una de las muestras y pc es la fracción de columnas/características. Que sólo tiene que utilizar una más estática sabor de la terminología en los que las observaciones son las filas y las covariables son las columnas.

Esto es cerca de lo sklearn.linear_model.RandomizedLogisticRegression hace internamente. Las principales diferencias son que RandomizedLogisticRegression no de la columna de soporte de muestreo y también que no es un modelo predictivo. Sólo se utiliza para seleccionar las características relevantes.

Embolsado en realidad no ofrecen nada extra para lidiar con la secuenciación de la información. Usted puede crear características que codifican la secuencia de la información como lo haría con cualquier otra máquina, método de aprendizaje, pero si esa es la cosa principal que usted está interesado en que usted debe buscar en métodos especializados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X