4 votos

La estimación de la influencia de diferentes características en el resultado

He estado tratando de, con suerte, encontrar el algoritmo correcto para los siguientes 2 escenarios y me parece que no puede hacerlo bien.

Primer escenario

Cada día puedo obtener datos como los siguientes:

+---------+----------+----------+----------+----------+---------+
| day     | keyword1 | keyword2 | keyword3 | keyword4 | success |
|         | clicks   | clicks   | clicks   | clicks   |         |
+---------+----------+----------+----------+----------+---------+
| day1    | 10       | 3        | 5        | 9        | 76      |
| ...     | ...      | ...      | ...      | ...      | ...     |
+---------+----------+----------+----------+----------+---------+

El éxito es un valor que mide lo bien que el día del 'clics' realizado en diferentes valores, conversiones, etc.

Es allí cualquier algoritmo que puede utilizar para asignar un peso a cada palabra clave en relación con el éxito a través de varios días?

Yo, sin embargo, de la asociación de reglas y árboles de decisión, pero me parece que no puede obtener la idea de derecho en cómo serían esas que me ayude.

Segundo escenario

... que es bastante similar fueron de datos tiene la siguiente estructura

+------------+---------+---------+---------+---------+
| importance | value 1 | value 2 | value 3 | value 4 |
+------------+---------+---------+---------+---------+
|          1 |      18 |      21 |      35 |      25 |
|          2 |      93 |      36 |      11 |      56 |
|          3 |      34 |      26 |      47 |      47 |
|          1 |      19 |      20 |      10 |      23 |
|          1 |      17 |      20 |       3 |      25 |
+------------+---------+---------+---------+---------+

En este caso, lo que estoy tratando de hacer es entender cómo los diferentes valores que afectan a la importance de su valor.

En el caso anterior se puede ver fácilmente que para importance=1 valor 1, valor 2, y el valor 4 "cerrar" el uno al otro, mientras que el valor 3 no lo es.

2voto

Shea Parkes Puntos 2014

Para el primer escenario, cualquier decente Árbol de Decisión de enfoque debería funcionar bien. Una pareja madura opciones son gbm o randomForest en R. Cada uno de estos puede ser entrenado en una "regresión" modo con una respuesta continua. A continuación ofrecen puntuaciones de importancia. Asegúrese de leer la documentación y el uso de la permutación basado en puntuaciones de importancia para la mayoría de los resultados razonables. randomForest es probablemente el más fácil; usted puede conseguir razonable respuestas sin molestar a afinar mucho. Cuando la formación, asegúrese de establecer importance=TRUE. Y cuando se llama a importance() mirada a la primera métrica devuelto.

Si estás más centrado en la precisión predictiva, incluso el randomForest necesita algunos ajustes.

Creo que el mismo tipo de análisis podría ayudar con el segundo problema, pero yo no estoy tan seguro de los detalles.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X