Soy un completo novato en la teoría del control. Lo que entiendo de la teoría de control es que se puede utilizar para ajustar los parámetros de un sistema basado en la retroalimentación para alcanzar algún estado deseado. Parece un conjunto de herramientas útiles para un problema que tengo, pero me cuesta formularlo.
Mi problema es (esencialmente) el siguiente: Los usuarios pueden pulsar uno de los dos botones, A o B, siempre que lo deseen, en el transcurso de una hora. Mi estado deseado es que quiero que el número de pulsaciones A sea aproximadamente el mismo que el número de pulsaciones B ( $A-B = 0$ ). Existe un parámetro interno $u$ que puede hacer que uno de los botones sea más deseable de pulsar que el otro en un grado arbitrario, lo que hará que más usuarios pulsen ese botón en el futuro.
Supongamos que al cabo de 10 minutos, A ha sido pulsado 300 veces y B sólo 100 veces ( $y = 300-100 = 200$ ). Está claro que, por alguna razón externa desconocida, pulsar A es más deseable para los usuarios que pulsar B. Me gustaría tomar esta información y ajustar el parámetro interno $u$ para hacer la B más atractiva y animar a los usuarios a pulsar más la B, con el objetivo de que $y$ más cerca de cero.
¿Puedo utilizar las técnicas de la teoría de control para solucionar este problema? Parece un ajuste perfecto basado en la descripción de la teoría de control, pero todos los ejemplos que he visto hasta ahora han tenido una salida bien definida basada en un sistema físico como la velocidad del coche en el control de crucero, en lugar de algo tan estocástico como las elecciones de los usuarios basadas en sus deseos. Además, la velocidad del coche se actualiza inmediatamente, mientras que el impacto de cambiar $u$ en $y$ podría retrasarse sustancialmente. He intentado implementar una solución ad-hoc para este problema con usuarios simulados, pero regularmente sobrepasa la solución deseada y oscila. Se agradece cualquier consejo.
Detalles de la simulación
La simulación está codificada en Python y funciona como sigue. En cada paso de tiempo, un "usuario" pulsa uno de los botones. La probabilidad de que el botón pulsado sea A, $P(A) = \sigma(u+v)$ donde $\sigma(x) = \frac{1}{1 + e^{-x}}$ es la función sigmoidea para producir una probabilidad, $u$ es el parámetro interno, y $v$ es un valor predeterminado que indica cómo se sienten los usuarios con los botones desde el principio. $P(B) = 1 - P(A)$ .
Por ejemplo, en el caso de que $v = 0.5$ los usuarios se decantarán por el botón A. Para contrarrestarlo perfectamente, $u$ tiene que ser ajustado a $-0.5$ .