3 votos

Sugerencias para identificar las características clave

Tengo un gran conjunto de datos de clientes. Para estos clientes, he ideado un puntuación de la fidelidad de los clientes que es una medida de la fidelidad del cliente. Quiero encontrar las características que están fuertemente asociadas/correlacionadas con esta puntuación. Las características podrían ser número de compras en varios tipos de comerciantes.

Una respuesta obvia sería simplemente calcular el correlación para cada característica con la puntuación de fidelidad del cliente y ver cuáles tienen las correlaciones más altas. ¿Es ésta la forma preferida de hacerlo o hay técnicas mejores?

4voto

mmcglynn Puntos 1619

Una forma de reformular el problema es la siguiente: se quiere seleccionar un pequeño conjunto de características que predigan bien la puntuación de fidelidad, utilizando un modelo lineal, por ejemplo. Este problema se denomina selección del (mejor) subconjunto.

Supongamos que quiere elegir k características. La primera forma de hacerlo es probar todos los subconjuntos de k características, haciendo una regresión lineal en cada subconjunto. Pero para un conjunto de datos grande, esto es demasiado largo.

Otra forma de hacerlo es de forma codiciosa. Se empieza eligiendo la característica más correlacionada con la puntuación y se añade al subconjunto (vacío). Se calcula el modelo lineal asociado a este subconjunto (en este caso, sólo un coeficiente) para predecir la puntuación de fidelidad. A continuación, elija la característica que esté más correlacionada con el residuo (la diferencia entre el valor predicho por su modelo lineal y la puntuación real) y calcule el modelo lineal correspondiente a su nuevo subconjunto. Y así sucesivamente, hasta que tenga k características en su conjunto.

Hay otros métodos, como el lazo, para hacer la selección de subconjuntos. Para una introducción más completa a la selección de subconjuntos, debería leer la sección 3.3 de Los elementos del aprendizaje estadístico que se puede descargar gratuitamente en el sitio de los autores.

2voto

pirho Puntos 1387

Tengo entendido que la puntuación de fidelidad se calcula en función de algunos datos. Si sus características incluyen componentes que se utilizan en el cálculo de la puntuación de fidelidad, resultarán evidentemente influyentes.

Las técnicas multivariantes son probablemente más útiles que las correlaciones por pares:

  • pueden detectar características más débiles que pueden ser útiles en combinación con otras más fuertes
  • pueden revelar que algunas características tienen un contenido de información muy similar.

La forma más sencilla de empezar podría ser la regresión lineal múltiple, aunque otros métodos pueden ser mejores dependiendo de muchas condiciones.

1voto

bavajee Puntos 141

Parece un trabajo de Business Intelligence (http://en.wikipedia.org/wiki/Business\_intelligence). ¿Podría confirmar si se trata de una base de datos de clientes o de una encuesta que realizó? ¿Ambos? ¿Es de una base de datos CRM? ¿Están los clientes segmentados? ¿Demográficamente/físicamente? Necesitamos más detalles sobre lo que tienes.

Si se trata de una base de datos de clientes, las correlaciones cuentan una historia sobre cómo las características influyen en su puntuación, pero no es la única historia (cor != causa). Si tiene información transaccional, puede realizar un análisis de supervivencia y calcular el valor del tiempo de vida (siempre útil).

Necesitamos saber mucho más sobre sus variables para poder hacer recomendaciones de "qué hacer con él"

1voto

ocram Puntos 9992

Además de las sugerencias de las respuestas anteriores, sugeriría la catdes de la función FactoMineR en R. Proporciona un descripción de las categorías de un factor por variables cualitativas y/o por variables cuantitativas . La salida se explica brevemente en el manual, pero creo que valdría la pena echar un vistazo a la referencia mencionada allí. La idea es que se obtiene una lista de las variables que caracterizan más el factor junto con un valor p para evaluar la significación.

Nota 1 Creo que la función se utiliza especialmente en un contexto de "análisis de conglomerados".

Nota 2 Requiere discretizar su "puntuación de fidelidad del cliente"...

Por cierto, hace unos tres años utilicé esa función y tuve una duda al respecto. Escribí un correo electrónico al autor (mencionado en el manual) y me respondió amablemente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X