4 votos

Estrategias para predecir 100 elecciones binarias dados los 100 anteriores.

De fondo

Como un psicólogo experimental, durante mucho tiempo he tenido un interés en binario de la toma de decisiones de las tareas. Normalmente, en esa tarea, me manipular algunas propiedades de algunos hipotético o real de decisión, tales como la probabilidad de ganar un juego de azar, y pedir a los sujetos humanos que de las dos opciones que prefiera. Ahora, sin embargo, estoy estudiando una tarea en la que no hay diferencia significativa entre las dos opciones; los sujetos acaba de hacer un arbitraria elección binaria. El punto es ver cómo la toma de decisiones puede ser predicho en el más simple de los casos, como una especie de techo (o quizás piso) para mi la precisión en la predicción más decisiones significativas.

El problema

Estoy pidiendo a cada tema para hacer 200 opciones binarias. La pregunta es, el uso de los primeros 100 como datos de entrenamiento, ¿cómo puedo predecir el último 100, el uso de simple precisión (la proporción de predecir con opciones iguales a las observadas elección) como mi función de pérdida? No espero que ustedes me den una respuesta completa tanto como las ideas de qué tipo de métodos que debo leer. Por ejemplo, yo soy vagamente consciente de que los procesos estocásticos y series de tiempo existen y que este problema puede ser modelado como uno, pero no estoy seguro de que muchos de los métodos relacionados sería más aplicable.

Usted puede ver muchos más detalles sobre este estudio, incluyendo mis intentos hasta ahora, en mi sitio web, pero aquí son los más relevantes bits:

  • Sólo tengo 3 temas, pero la recopilación de más es fácil, ya que estoy en Mechanical Turk.
  • Sujetos tienden a elegir una de las opciones de alrededor del 50% del tiempo. Por lo tanto, hay un montón de espacio para mejorar en un trivial modelo.
  • No sólo tienen el binario opciones, pero también los tiempos de respuesta. Mientras yo no estoy interesado en la predicción de los tiempos de respuesta para su propio bien, y no quiero dejar a un modelo predictivo ver el tiempo de respuesta para tomar una decisión en un intento de predecir, todavía podría ser útil.
  • He enmarcado con mi investigación como independiente predictivo problema para cada tema, pero estoy abierto a la utilización de más de 200 ensayos de algunas asignaturas con el fin de entrenar a un nivel superior del modelo utilizado para predecir los últimos 100 ensayos en otros temas. (En tal caso, me gustaría probable que el uso de la validación cruzada para que cada sujeto da la oportunidad de estar en el set de prueba.)

2voto

Aaron Puntos 36

Te recomiendo que te acerques por realizar algunas conjeturas acerca de la naturaleza de la materia en opciones y, a continuación, un modelo de estos utilizando los modelos apropiados, y poner a prueba las conjeturas por las pruebas de hipótesis/modelo de rendimiento. A partir de los datos de entrenamiento se han mostrado en el enlace, es bastante claro que las elecciones no son intercambiables, así que esto no es una simple secuencia de Bernoulli. En su lugar, parece que el sujeto tiende a elegir una larga cadena de valores consecutivos del mismo tipo y, a continuación, cambiar de vez en cuando. Es razonable suponer que los sujetos tienden a olvidar sus anteriores decisiones, una vez que se vuelven muy lejos, por lo que podría darse el caso de que su elección sólo depende de la elección anterior, y por cuánto tiempo han estado presionando. Esto me lleva a empezar por probar la siguiente conjetura y modelo.

Conjetura 1: elección de asignaturas sólo depende de la elección anterior y el número de valores consecutivos de la elección en la presente cadena. Suponemos que el sujeto comportamiento es simétrico con respecto a las opciones.

Modelización: Si esta conjetura es verdadera, entonces podemos modelo de la secuencia binaria $X_1, X_2, X_3, ...$ como sigue. Para cualquier momento del índice de $t$, definir:

$$S_t \equiv \max \{ n \in \mathbb{N} | X_t = X_{t-1} = \cdots = X_{t-n+1} \}.$$

El valor de $S_t$ nos dice el número de valores consecutivos de la selección actual en el momento $t$. Bajo nuestra conjetura tenemos el modelo de formulario:

$$\mathbb{P}(X_{t+1} = X_{t}| \mathbf{X}_t = \mathbf{x}_t) = f(s_t) \quad \quad \quad \quad \mathbb{P}(X_0 = 1) = \phi.$$

Es decir, podemos elaborar nuestro modelo, por lo que la probabilidad de que se pegue a la misma opción en el momento $t+1$ está totalmente determinado por $s_t$, que es el número de valores consecutivos que han sido elegidos. Mediante la especificación de una amplia forma paramétrica de la función de $f$ (por ejemplo, uno que es monótonamente decreciente con un simple forma paramétrica) podemos entonces un modelo de los datos y la estimación de esta función, que a continuación se da una base para hacer predicciones de valores futuros. Se nota que este le da un modelo de formulario que puede ser analizado como una cadena de Markov con espacio de estado $(X_t, S_t)$.


Conjetura 2: elección de asignaturas sólo depende de la elección anterior y el número de valores consecutivos de la elección en la presente cadena. Nosotros no asumir que el sujeto comportamiento es simétrico con respecto a las opciones.

Modelización: Esta conjetura es una variación de la conjetura 1 donde podemos generalizar para permitir la probabilidad de que se pegue/cambiar a no ser simétrica en las decisiones. Bajo esta generalización tenemos el modelo de formulario:

$$\mathbb{P}(X_{t+1} = X_{t} = i| \mathbf{X}_t = \mathbf{x}_t) = f_i(s_t) \quad \quad \quad \quad \mathbb{P}(X_0 = 1) = \phi.$$

Es decir, volvemos a formular nuestro modelo, por lo que la probabilidad de que se pegue a la misma opción en el momento $t+1$ está totalmente determinado por $s_t$, pero ahora tenemos dos funciones de $f_0$ e $f_1$ para los dos diferentes opciones. Podemos especificar una forma paramétrica para estas funciones, un modelo de los datos y la estimación de las funciones que a continuación se da una base para hacer predicciones de valores futuros. Este modelo generalizado formulario también puede ser analizada como una cadena de Markov con espacio de estado $(X_t, S_t)$ (con un poco generalizada de la matriz de transición).


Prueba las conjeturas: El modelo de arriba formularios permiten modelar los datos en virtud básicos de conjeturas sobre el comportamiento de los sujetos. Las pruebas de estas conjeturas se podría hacer en un número de maneras, ya sea mediante la anidación de estos modelos dentro de un modelo más amplio y haciendo explícita la validación cruzada, o haciendo algún tipo de prueba de hipótesis para la conjetura, mediante la formulación de un estadístico de prueba que se hace más grande cuando la conjetura es falsa.

Yo se lo dejo a otros especificar otros modelos que pueden ser aplicados a este tipo de datos. Hay un sinfín de posibilidades, pero el de arriba me parecen razonables modelos para empezar. Personalmente, me gustaría empezar con el montaje de un modelo de una forma similar a las de arriba, con la función(s) $f$ que tiene algunas simples paramétrico de la forma (y tal vez probar algunos montonically la disminución de funciones en contra de ampliar el número de opciones). Con $n=100$ datos de puntos que usted debe tener una cantidad razonable de datos para la estimación paramétrica formulario para tal función. Tener una mirada en el RMSE de las predicciones de este modelo y ver si son buenas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X