8 votos

La puntuación de los elementos que no son fácilmente comparables

Primero de todo, pido disculpas ya que esta pregunta probablemente se ha preguntado muchas veces y es difícil de responder. Sin embargo, como las estadísticas de aficionados que simplemente no podía averiguar qué palabras clave son relevantes a mi pregunta.

Supongamos que usted tiene 100 comerciantes y 100 productos. Cada comerciante vende una determinada gama de productos, que van desde un solo producto para todos los 100 productos. Asimismo, los productos que se venden en muy diferentes proporciones, que difieren entre los comerciantes, y están sujetos a la del comerciante individual (irracional) de las preferencias.

Cada vez que un comerciante tiene un "tono" en el mercado, podemos observar si existe o no logra vender el producto en el que el pitcheo. Suponemos que la probabilidad de éxito depende de (a) sobre la habilidad del comerciante, y (b) el atractivo del producto. Los productos, los precios son fijos, por lo que no es un factor.

Los datos de que disponemos se compone de millones de campos de fútbol. Para cada paso, sabemos si tuvo éxito o no, el comerciante y el producto.

Obviamente, si comparamos los comerciantes por su tasa media de éxito, esta información es inútil porque cada comerciante vende diferentes productos. Asimismo, si se compara productos, obtenemos ninguna información, ya que cada producto se vende por diversos comerciantes.

Lo que queremos es una habilidad de puntuación para cada vendedor, que es independiente de los productos, el comercio es la venta, y un atractivo puntuación para cada producto, la cual es independiente de los comerciantes que están vendiendo.

No necesito una explicación exhaustiva, sólo algunas palabras clave que me apunte en la dirección correcta. Yo, literalmente, no tienen idea de por dónde empezar.

Edit: tenga en cuenta que nuestra suposición es que el producto de la atracción es comerciante independiente y el comerciante habilidad es independiente del producto, es decir, no hay comerciantes que son mejores en la venta de ciertos productos, pero peor en la venta de los demás.

6voto

Alan LaMielle Puntos 53

Este tipo de problema es lo que normalmente se conoce en econometría e investigación de marketing como una "elección de modelado del problema". Textos relacionados con estos problemas incluyen: Louviere, J., D. A. Hensher et al. (2000). Declaró la Elección de Métodos: Análisis y Aplicación. Cambridge, Cambridge University Press. Tren, K. E. (2009). Métodos de Elección discreta con Simulación. Cambridge, Cambridge University Press. Rossi, P. E., G. M. Allenby, et al. (2005). La Estadística bayesiana y de Marketing, Wiley.

La práctica más sencilla modelo se podría estimar sería un modelo logit binario con la variable dependiente, indicando que cuando un objeto se compra cuando frente no es comprado, con dos variables independientes: una variable categórica para los comerciantes y una variable categórica para el producto. (O, si usted no sabe nada acerca de cuando un producto no es comprado, usted podría utilizar la regresión de Poisson o algunos otros cargos modelo).

La estimación del parámetro para cada comerciante sería su habilidad puntuación y el parámetro para cada producto sería el "atractivo de puntuación". El "atractivo" de puntuación es más comúnmente conocida como una "utilidad" en la elección de modelado.

Una práctica computacional del problema de la experiencia es que, a menos que usted tiene sólo unos pocos cientos de comerciantes y unos cientos de variables categóricas se lucha para estimar el modelo y pueden necesitar un "efectos aleatorios" modelo (a veces referido como un "modelo jerárquico" en este contexto).

Además de la suposición de que usted menciona, de una clave de un conjunto de supuestos que va a determinar la validez de su análisis se refieren a que las alternativas están disponibles en un momento dado. Por ejemplo, un producto que es intrínsecamente poco atractivo puede ser adquirido de forma regular porque el más atractivo de los productos no están disponibles en el momento de la compra. Este efecto puede tener un impacto muy grande sobre sus estimaciones resultantes, como cuando es ignorado, de forma inadvertida, se confunden el atractivo de un producto con su disponibilidad. Los textos citados anteriormente discutir diversas modificaciones de los modelos de elección para tratar muchos de los tipos de hipótesis probable relación con su problema.

5voto

BillyJean Puntos 118

Permítanme ampliar las alternativas de solución propuestas por @curious_cat.

$P_{ij}$ es la matriz de las canchas

$L_{ij}$ es la matriz de vende

$S_{ij} = L_{ij}/P_{ij}$ es la matriz de tasas de éxito (elementwise división, donde existe y 0 en otro lugar)

Como @curious_cat sugerido, usted desea aproximar $S_{ij}$ por el exterior producto de dos positivos vectores

$$S_{ij} \approx M_i \times A_j^T$$

Cuadrado de la minimización llevará a

$$\min | S_{ij} - M_j \times A_i^T |_2$$ donde $| \quad |_2$ es la norma de Frobenius.

PERO usted no desea minimizar para las entradas en las que $S_{ij}$ no está definido. Así que lo que realmente quiero es algo como:

$$ \min |W_{ij} \odot (S_{ij} - M_j \times A_i^T)|_2$$ donde $\odot$ es el elementwise la multiplicación.

1) En una primera aproximación, $w_{ij}$ 0 donde: $p_{ij}$ es de 0 y 1 en otro lugar.

Este es un ponderado no negativo factorización de la matriz (o aproximación) problema. Google debería dar algunas referencias a ella.

2) Ahora, disparar desde la cadera, tratemos de responder a la punto también hecha por @curious_cat que usted debe confiar más una tasa de éxito de 1000 vende más de 2000 lanzamientos de 2 vende más de 4 lanzamientos.

El peso de la $w_{ij}$ no necesita ser uniformemente 1 para las entradas que se definen en $S_{ij}$. Uno puede darle más peso a las tasas de éxito con tonos más altos.

Mi conjetura es el uso de $\sqrt{p_{ij}}$ como el peso. La intuición es que el intervalo de confianza en la tasa de éxito es inversamente proporcional a $\sqrt{p_{ij}}$.

4voto

rutherford Puntos 165

¿Por qué no para cada comerciante calcular una tasa de éxito de cada producto que vende $S_{ij}$. ($i$ los índices de los productos y $j$ los índices de comerciantes) Promedio de este y calcular un comerciante promedio de la línea de base tasa de éxito($S_j$). Ahora calcular las diferencias ($\delta S_{ij}=S_{ij} - S_j$). Cada uno de esto $\delta S_{ij}$ indica cuánto mejor o peor cada producto con respecto a que los comerciantes de referencia tasa de éxito.

Si se suma esta $\delta S_{ij}$ sobre todos los comerciantes j te gustaría obtener algún tipo de puntuación de la capacidad de atracción de cada producto $S_i$?

El comerciante habilidad métrica sería un doble de este. Uno de los problemas es que esto no pesan en el nivel de confianza motivado por los grandes datos. es decir, 2 éxitos de 4 parcelas debería (tal vez) la materia que menos de 1000 éxitos de 2000 parcelas? Usted tendría que encontrar alguna manera de ajustar para que en caso de que los asuntos.

Alternativamente: Suponga que cada comerciante tiene un valor habilidad $M_j$ y cada producto tiene un producto atractivo $A_i$. Usted podría modelar la tasa de éxito del producto $i$ vendidos por el comerciante $j$ ($S_{ij}$) como alguna función de $M_j$ $A_i$ con posibles cruz términos. Si se ajustan a esto usted puede ser capaz de puntuación uso de la coefficents.

Si consideras $S_{ij} = M_j \times A_i + \epsilon_{ij}$ usted obtiene un modelo simple. La matriz de éxito de elementos es posiblemente escasa (ya que no todos los comerciantes que venden todos los productos). Si, de hecho, fueron totalmente poblada debe estimar 200 coeficientes de 100x100 tasa de éxito de los números de tal manera que se minimice $\epsilon_{ij}$ en algún tipo de sentido de los mínimos cuadrados.

Posibles defectos:

No veo una manera fácil de interpretar relativa de las puntuaciones. por ejemplo, Si dos Productos tienen un atractivo de $A_{i1}$ $A_{i2}$ cuánto mejor es uno que el otro? Una simple relación? Un registro de probabilidad? etc. Quizás hay algo de interpretación, pero todavía no la veo. Desde una estricta perspectiva no debería importar.

PS Lo escasos que es su matriz? Sabiendo que usted tiene millones de tonos, tal vez no demasiado disperso? O es? es decir, de un máximo posible de 10.000 comerciante, producto de combinaciones de cómo muchos se llenan (es decir, que tienen al menos un tono)?

PS1 Singularidad. No puedo probar si su $M_j$ $A_i$ de los valores será el único ni siquiera cerca. Si hay varias soluciones que va a ser una situación interesante. Tal vez son más fuertes en matemáticas los resultados acerca de esto?

2voto

user12786 Puntos 454

Acabo de crear una 2 camino de mesa para el este. Por ejemplo, las filas correspondientes a los diferentes comerciantes y columnas correspondientes a los diferentes productos. Cada celda de esta 100 x 100 tabla/matriz representa condes/proporción de no. de veces que la combinación fue un éxito.

Una vez hecho esto, usted puede ordenar esta matriz por filas y luego por columnas (o al revés) para obtener el producto y el comerciante habilidades de pedidos.

1voto

pauly Puntos 932

Creo que usted está buscando para atribuir cualidades que no son inherentes, o no seguir a partir de sus datos. Usted tiene inequívoca los datos sobre la tasa de éxito, y debe haber una manera de calcular o estimar un comerciante ", que se ajusta la tasa de éxito" dada la velocidad a la que sus productos suelen vender entre todos los comerciantes. Del mismo modo, debe haber una manera para determinar cada uno de los productos ajustar la tasa de éxito dado que las tasas de éxito de los comerciantes que tienden a vender. Estos dos ángulos en el análisis puede ser llevado a cabo con un anidada/a jerárquico/multi-nivel de regresión logística, si los datos son adecuados para ello. Pero eso no necesariamente revelan los atributos de "habilidad" o "atractivo"; se podría producir viable proxies para ellos, pero ¿cómo adecuada de estos proxies es una cuestión de fondo más que una estadística.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X