10 votos

Estadísticas para sitios de citas en línea

Tengo curiosidad por cómo una de citas en línea de los sistemas podría utilizar los datos de la encuesta para determinar las coincidencias.

Supongo que tiene datos de los resultados de partidos jugados (por ejemplo, 1 = felizmente casado, 0 = no hay 2ª fecha).

A continuación, vamos a suponer que había 2 preguntas sobre preferencias,

  • "¿Cuánto disfrutar de actividades al aire libre? (1=desagrada, 5 = totalmente de como)"
  • "¿Cómo son optimistas acerca de la vida? (1=desagrada, 5 = totalmente de como)"

Supongamos también que para cada preferencia pregunta que tienen un indicador de "lo que es importante que su cónyuge comparte tu preferencia? (1 = no es importante, 3 = muy importante)"

Si tienen esas 4 preguntas para cada par y un resultado de si el partido fue un éxito, ¿qué es un modelo básico que podría utilizar esa información para predecir el futuro de los partidos?

4voto

A.Schulz Puntos 264

Yo una vez hablé con alguien que trabaja para uno de los sitios de citas en línea que utiliza técnicas estadísticas (que probablemente iba más bien, yo no digo quien). Fue muy interesante para comenzar con utilizaron cosas muy simples, tales como vecinos más próximos con euclidiean o L_1 (cityblock) las distancias entre el perfil de los vectores, pero hubo un debate sobre si la coincidencia de dos personas que fueron muy similar fue una buena o mala cosa. A continuación, pasó a decir que ahora se han reunido una gran cantidad de datos (que estaba interesado en la oms, de fecha que, quien se casó etc. etc.), están usando que constantemente reeducar a los modelos. El trabajo en un incremento de los lotes marco, donde la actualización de sus modelos periódicamente a través de lotes de datos y, a continuación, volver a calcular el partido probabilidades en la base de datos. Muy interesante, pero me gustaría aventurar una conjetura que la mayoría de los sitios web de citas uso bastante simple heurística.

3voto

georg Puntos 1742

Se le preguntó por un modelo simple. He aquí cómo me gustaría empezar con R código:

 glm(match ~ outdoorDif*outdoorImport + optimistDif*optimistImport,
     family=binomial(link="logit"))

outdoorDif = la diferencia de las dos las respuestas de las personas acerca de lo mucho que disfrutan de actividades al aire libre. outdoorImport = el promedio de las dos respuestas sobre la importancia de un partido con respecto a las respuestas en el disfrute de actividades al aire libre.

El * indica que los anteriores y los siguientes términos se relacionaron y también se incluye por separado.

Sugiere usted que el partido de los datos es binario con las únicas dos opciones, "felizmente casado" y "no hay una segunda fecha," eso es lo que supone en la elección de un modelo logit. Esto no parece realista. Si usted tiene más de dos resultados posibles necesitas cambiar a un multinomial ordenado o logit o algunos de estos modelos.

Si, como usted sugiere, algunas personas tienen múltiples intentos de los partidos, a continuación, que probablemente sería una cosa muy importante a tener en cuenta en el modelo. Una manera de hacerlo podría ser variables independientes, indicando el # de anteriores intentos de partidos para cada persona, y luego interactuar los dos.

1voto

Ereck Johan Puntos 131

Un enfoque simple sería la siguiente.

Para los dos preferencia preguntas, tomar la diferencia absoluta entre los dos demandado respuestas, dando dos variables, digamos z1 y z2, en lugar de cuatro.

Por la importancia de las preguntas, puede crear una partitura que combina las dos respuestas. Si las respuestas eran, digamos, (1,1), yo le daría un 1, a (1,2) o (2,1) obtiene un 2, un (1 y 3) o (3,1) obtiene un 3, un (2,3) o (3,2) obtiene un 4, y (3,3) obtiene un 5. Vamos a llamar a que la "puntuación de importancia." Una alternativa sería el uso de max(la respuesta), dando a 3 categorías en lugar de 5, pero creo que el 5 categoría de versión es mejor.

Me gustaría crear diez variables, x1 - x10 (de concreto), todos con los valores por defecto de cero. Para aquellas observaciones con una puntuación de importancia para la primera pregunta = 1, x1 = z1. Si la puntuación de importancia para la segunda pregunta también = 1, x2 = z2. Para aquellas observaciones con una puntuación de importancia para la primera pregunta = 2, x3 = z1 y si la puntuación de importancia para la segunda pregunta = 2, x4 = z2, y así sucesivamente. Para cada observación, exactamente uno de x1, x3, x5, x7, x9 != 0, y lo mismo para x2, x4, x6, x8, x10.

Después de haber hecho todo eso, me gustaría correr una regresión logística con el resultado binario como variable de destino y x1 - x10 como los regresores.

Versiones más sofisticadas de esto podría crear más puntuaciones de importancia por que permite masculino y femenino demandado de la importancia de ser tratados de manera diferente, e.g, a (1,2) != a (2,1), donde hemos ordenado las respuestas por sexo.

Una desventaja de este modelo es que usted podría tener varias observaciones de la misma persona, lo que significaría que los "errores", a grandes rasgos, no son independientes a través de observaciones. Sin embargo, con un montón de gente en la muestra, probablemente me ignoren esto, para un primer paso, o la construcción de un ejemplo donde no hay duplicados.

Otro hecho es que es plausible que como importancia aumenta, el efecto de una diferencia entre las preferencias de p(error) también se incrementará, lo que implica una relación entre los coeficientes de (x1, x3, x5, x7, x9) y también entre los coeficientes de (x2, x4, x6, x8, x10). (Probablemente no completar el pedido, ya que no es un a priori claro para mí cómo un (2,2) puntuación de importancia se refiere a una (1,3) puntuación de importancia.) Sin embargo, no hemos impuesto que en el modelo. Probablemente me ignoran que en la primera, y a ver si me sorprenden los resultados.

La ventaja de este enfoque es que no impone ninguna suposición acerca de la forma funcional de la relación entre la "importancia" y la diferencia entre las preferencias de las respuestas. Esto se contradice con la anterior, el déficit de comentario, pero creo que la falta de una forma funcional que se imponga es probablemente más beneficiosa que la relacionada con el fracaso a tener en cuenta a la espera de las relaciones entre los coeficientes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X