Desgraciadamente no tengo tiempo para hacer esto ahora mismo, pero aún así quiero pasar esta idea de cómo abordar este (muy difícil) problema.
Este método se asemeja en cierto modo al que se utiliza a menudo en la física estadística. Cf también a la teoría ergódica y similares (tendríamos que demostrar la ergodicidad.... pero bueno...).
Para cada campo almacena una matriz de probabilidades de que este campo en particular esté en el estado 0 (desocupado), 1 (tiene el número $2^1$ ), 2 (número $2^2$ ), ..., 11 (campo ganador $2^{11} = 2048$ ).
Dejemos que $P(i,j,x)$ denotan la posibilidad de que el campo con coordenadas $(i,j)$ está en el estado $0\le x \le 11$ .
Cada movimiento (arriba, izquierda, derecha, abajo) tiene un efecto claramente definido que puede expresarse como un conjunto de reglas, por ejemplo $$P'(i,j,x) = \underbrace{P(i,j,x)}_{\text{already was in this state}} - \underbrace{P(i,j,x) * (P(i+1,j,x)+P(i+1,j,x))}_{\text{leaves this state due to a join or move to the right}} + \underbrace{P(i,j,x-1)*P(i-1,j,x-1)}_{\text{joines this state due to join from the left}} + \dots $$ donde $\dots$ representa los términos más largos debido a las baldosas en movimiento (por ejemplo, en algún lugar a la derecha es una baldosa vacía y a la izquierda de mí fue el valor $x$ en el último paso).
La inserción de números aleatorios simplemente disminuirá la probabilidad de que cada campo esté desocupado y aumentará, respectivamente, el estado $x=1$ y $x=2$ oportunidades $$ P'(i,j,1) =P(i,j,1) + P(i,j,0)/16 \\ P'(i,j,2)=P(i,j,2) + P(i,j,0)/16 \\ P'(i,j,0)=P(i,j,0)*\frac{14}{16}\,. $$
Cualquier movimiento y el paso de inserción aleatoria se alternan en nuestro estado actual (los vectores de probabilidades). La probabilidad de perder en el paso actual es igual a la probabilidad de que todos los campos estén ocupados antes del paso de inserciones aleatorias. La probabilidad de ganar es la probabilidad de que cualquier campo esté en el estado $x=11$ después del movimiento elegido.*
Es evidente que las probabilidades debe estar correlacionados. Suponer que no lo están equivale en cierto modo al caos "molecular" que se supone en la física estadística/teoría ergódica. Pero, suponiendo que efectivamente seamos ergódicos con esta descripción del modelo, podemos obtener la posibilidad de ganar el juego después de $n$ pasos predefinidos (y no perderlo antes) iterando este $n$ tiempos. De esta forma se podrían comparar fácilmente diferentes estrategias, pero aún así habría que probar varias cadenas de movimientos al azar para obtener una media decente. (Sólo promediamos implícitamente sobre todas las posiciones posibles del $2$ y $4$ campos)
(*) Nótese que tenemos que eliminar cualquier estado ganador de nuestro vector de posibilidades antes de cada inserción aleatoria. Está claro que no hemos ganado todavía si seguimos jugando. (También esto es necesario para tener alguna posibilidad de ser ergódico)