7 votos

¿Cómo modelo de preferencia parejas tanto fuerte y preferencias débiles?

Tengo gran comparación de los datos en el formulario

En una de comparación por parejas de datos de cada punto de datos se comparan dos alternativas.
Por ejemplo:
A > B (a es preferido a B, a y B son las clases, no números)
A > B
B > UN
B > C
A > C
etc ...

En resumen, podemos escribir los números de las preferencias en el conjunto de datos:
A vs B 999:1
X vs 500:500
X vs B 500:500

Bradley-Terry modelo de modelos de pares de preferencia mediante la asignación de parámetro para cada clase:

$ P(A > B\; |\; \vec{w} ) = \frac{w_A}{w_A + w_B} $

Los parámetros pueden ser estimados a partir de datos a través de máxima verosimilitud.

Estoy buscando la extensión de Bradley-Terry modelo (o un modelo completamente nuevo), que sería capaz de modelar situaciones como la de arriba. I. e. Una es siempre fuertemente preferido a B: $P(A>B) = 0.999$ pero $ P(X<A) = P(X<B) = 0.5 $.

B-T modelo no puede representar. ¿Tiene usted alguna idea de cómo crear un modelo mejor ?

PS El modelo será aplicado a los datos de tamaño de $10^8$, por lo que sería bueno tener simples máxima probabilidad algoritmo.

4voto

Alan LaMielle Puntos 53

La dificultad con la especificación de un modelo para resolver este problema es uno de cómo interpretar la fuerza de la preferencia de la información. Hace Un vs B 999:1 significa que 999 de cada 1000 personas prefieren, o, lo que significa que una persona prefiere Una por una gran cantidad relativo a la B?

Si tomamos la interpretación que de los datos significa que a es preferido a B 999 de 1000, entonces usted puede caber una Bradley-Terry(-Luce) modelo, pero la mayoría de la gente en estos días en lugar de la estimación de un modelo logit, o una generalización de los mismos, como su "modelo de elección":

$ P(A > B\; |\; \vec{w} ) = \frac{e^w_A}{e^w_A + e^w_B} $

Estimación de máxima verosimilitud, con grandes conjuntos de datos y los datos agregados es sencillo como el tamaño de la muestra entra en el logaritmo de la probabilidad como un peso para cada par. La complicación surge cuando uno quiere tomar en cuenta cómo las personas difieren en sus preferencias, en el que caso de que algún tipo de mezcla es necesario (véase el Tren, Kenneth E. (2009), Métodos de Elección Discreta con Simulación (Segunda ed.). Cambridge: Cambridge University Press.).

No es desconocido para los investigadores a tomar esta frecuencia la interpretación al momento de modelar, incluso si se cree que no es una caracterización exacta del problema. Esto es debido a que no es una tarea sencilla para especificar un buen modelo que se ocupa de la medida, como usted, a continuación, tener que encontrar la manera de trabajar de lo que, precisamente, 999:1 significa y cómo se relaciona con 998:2 y así sucesivamente. Hay un montón de diferentes modelos que se han desarrollado para este problema (por ejemplo, los modelos diseñados para la suma constante de las variables dependientes, los modelos diseñados para predecir las probabilidades, los modelos de difusión). Es imposible decir con exactitud cuál es el modelo más apropiado, ya que realmente depende de la idoneidad de los supuestos inherentes a sus datos y cómo encaja con los datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X