47 votos

Medida de elevación en la minería de datos

He buscado en muchas páginas web para saber qué hará exactamente el ascensor. Los resultados que encontré eran todos sobre su uso en aplicaciones, no en sí mismo.

Conozco la función de apoyo y confianza. Según la Wikipedia, en la minería de datos, la elevación es una medida del rendimiento de un modelo a la hora de predecir o clasificar casos, en comparación con un modelo de elección aleatoria. ¿Pero cómo? Confianza*soporte es el valor de lift He buscado otras fórmulas también pero no puedo entender por qué los gráficos de lift son importantes en la precisión de los valores predichos Quiero decir que quiero saber qué política y la razón está detrás de lift?

74voto

christy Puntos 51

Voy a dar un ejemplo de la utilidad de la "elevación"...

Imagínese que realiza una campaña de publicidad directa en la que envía a los clientes una oferta con la esperanza de que respondan. Los datos históricos demuestran que cuando se envía un correo a su base de clientes de forma totalmente aleatoria, aproximadamente el 8% de ellos responden al envío (es decir, entran y compran con la oferta). Por tanto, si envía un correo a 1.000 clientes, puede esperar que respondan 80.

Ahora, usted decide ajustar un modelo de regresión logística a sus datos históricos para encontrar patrones que predigan si un cliente tiene probabilidades de responder a un envío. Utilizando el modelo de regresión logística, se asigna a cada cliente una probabilidad de respuesta y se puede evaluar la exactitud porque se sabe si realmente han respondido. Una vez que se asigna a cada cliente su probabilidad, se le clasifica de mayor a menor puntuación. A continuación, puede generar algunos gráficos de "elevación" como estos:

enter image description here

Ignora la tabla superior por ahora. El gráfico inferior indica que, después de clasificar a los clientes en función de su probabilidad de respuesta (de mayor a menor) y dividirlos en diez grupos iguales, el índice de respuesta en el grupo 1 (el 10% de los mejores clientes) es del 29% frente al 8% de los clientes aleatorios, lo que supone un incremento de 29/8 = 3,63. Para cuando llegamos a los clientes anotados en la cuarta casilla, hemos captado tantos los tres anteriores que el índice de respuesta es inferior al que esperaríamos enviando a la gente al azar.

Mirando ahora el gráfico superior, lo que dice es que si utilizamos las puntuaciones de probabilidad de los clientes podemos obtener el 60% del total de respondedores que obtendríamos enviando correos al azar sólo al 30% de los clientes con mayor puntuación. Es decir, utilizando el modelo podemos obtener el 60% del beneficio esperado por el 30% del coste del correo enviando sólo el 30% de los clientes con mayor puntuación, y esto es lo que ascensor realmente se refiere.

4voto

Ricardo Giaviti Puntos 191

Los gráficos de elevación representan la relación entre la respuesta de un modelo frente a la ausencia de ese modelo. Normalmente, se representa mediante el porcentaje de casos en el eje X y el número de veces que la respuesta es mejor en el eje Y. Por ejemplo, un modelo con lift=2 en el punto 10% significa:

  • Sin ningún modelo tomando un 10% de la población (sin orden porque no hay modelo) la proporción de y=1 sería el 10% del total población con y=1.

  • Con el modelo obtenemos 2 veces esta proporción, es decir, esperamos obtener el 20% de la población total con y=1.En la etiqueta char X se representan los datos ordenados por la predicción. El primer 10% son las predicciones del 10% superior

3voto

Josh Puntos 6

La elevación no es más que la relación entre la confianza y la confianza esperada. En el ámbito de las reglas de asociación: "Un ratio de elevación superior a 1,0 implica que la relación entre el antecedente y el consecuente es más significativa de lo que cabría esperar si los dos conjuntos fueran independientes". Cuanto mayor sea el ratio de elevación, más significativa será la asociación". Por ejemplo

Si la base de datos de un supermercado tiene 100.000 transacciones en el punto de venta, de las cuales 2.000 incluyen los artículos A y B, y 800 de ellas incluyen el artículo C, la regla de asociación "Si se compran A y B, entonces se compra C en el mismo viaje" tiene un soporte de 800 transacciones (alternativamente 0,8% = 800/100.000), y una confianza del 40% (=800/2.000). Una forma de pensar en el apoyo es que es la probabilidad de que una transacción seleccionada al azar de la base de datos contenga todos los artículos del antecedente y del consecuente, mientras que la confianza es la probabilidad condicional de que una transacción seleccionada al azar incluya todos los artículos del consecuente, dado que la transacción incluye todos los artículos del antecedente.

Utilizando el ejemplo anterior, la Confianza esperada, en este caso, significa, "confianza, si comprar A y B no aumenta la probabilidad de comprar C". Es el número de transacciones que incluyen el consecuente dividido por el número total de transacciones. Supongamos que el número total de transacciones para C es de 5.000. Por tanto, la confianza esperada es de 5.000/1.00.000=5%. Para el ejemplo del supermercado, el Lift = Confianza/Expected Confidence = 40%/5% = 8. Por lo tanto, el Lift es un valor que nos da información sobre el aumento de la probabilidad del entonces (consecuente) dada la parte del si (antecedente). aquí está el enlace al artículo fuente

2voto

aHunter Puntos 197

La elevación es sólo una medida para medir la importancia de la norma

es una medida para comprobar si esta regla está en la lista por azar o estamos esperando

Elevación = Confianza / Confianza esperada

0voto

Nick Matteo Puntos 101

Digamos que utilizamos el ejemplo de una tienda de comestibles que está probando la validez de una regla de asociación que tiene un antecedente y un consecuente (por ejemplo: "Si un cliente compra pan, también comprará mantequilla").

Si se observan todas las transacciones y se examina una al azar, la probabilidad de que esa transacción contenga el consecuente es la "Confianza Esperada". Si se observan todas las transacciones que contienen el antecedente y se selecciona una al azar, la probabilidad de que esa transacción contenga el consecuente es la "Confianza". La diferencia entre ambas es esencialmente la "elevación". Con la elevación, podemos examinar la relación entre dos elementos que tienen una alta confianza (si la confianza es baja, la elevación es esencialmente irrelevante).

Si tienen una confianza alta y una elevación baja, seguimos sabiendo que los artículos se compran juntos con frecuencia, pero no sabemos si se produce el consecuente porque del antecedente o si se trata de una mera coincidencia (tal vez ambos se compran juntos con frecuencia porque son productos muy populares pero no tienen ningún tipo de relación entre sí).

Sin embargo, si la confianza y la elevación son altas, entonces podemos suponer razonablemente que el consecuente está ocurriendo debido al antecedente. Cuanto mayor sea la elevación, menor será la probabilidad de que la relación entre los dos elementos sea sólo una coincidencia. En términos matemáticos:

Elevación = Confianza / Confianza esperada

En nuestro ejemplo, si la confianza de nuestra regla fuera alta y la elevación fuera baja, eso significaría que muchos clientes están comprando pan y mantequilla, pero no sabemos si se debe a alguna relación especial entre el pan y la mantequilla o si el pan y la mantequilla son simplemente artículos populares individualmente y el hecho de que a menudo aparezcan juntos en los carros de la compra es sólo una coincidencia. Si la confianza en nuestra regla es alta y la elevación es elevada, esto indica una correlación bastante fuerte entre el antecedente y el consecuente, lo que significa que podemos suponer razonablemente que los clientes compran mantequilla porque del hecho de que están comprando pan. Cuanto más alto sea el ascensor, más confianza podremos tener en esta asociación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X