Es necesario el burn-in si se inicializa el algoritmo en una región del espacio de estados donde la densidad de probabilidad es muy baja. Durante el periodo de rodaje, la cadena convergerá desde allí al "conjunto típico", es decir, a la región del espacio de estados donde la densidad de probabilidad es lo suficientemente alta como para que las propuestas en esta región sean aceptadas en algún momento dentro de la longitud finita de la cadena. Tras el rodaje, la cadena sólo explorará este conjunto típico y, a menudo, no volverá a la zona en la que se inició (porque la densidad allí es tan baja que la probabilidad de moverse allí dentro de la longitud de la cadena es casi 0).
En el límite de cadenas infinitamente largas, el burn-in no sería necesario, ya que todos los puntos del espacio de estados tienen una posibilidad distinta de cero de ser propuestos con éxito en el límite de infinitas propuestas. Por lo tanto, el burn-in es una solución para un problema causado por tener cadenas finitas. Sin el burn-in, la región alrededor del punto inicial estaría sobrerrepresentada entre las muestras resultantes.
Si eres capaz de elegir tu estado inicial de forma inteligente, de manera que sepas con seguridad que estará dentro del conjunto típico, entonces el burn-in puede no ser necesario. De hecho, esto es lo que dicen los autores en ese documento:
Sin embargo, la convergencia no es un problema para los cálculos de los cálculos realizados aquí, siempre que se utilice un valor inicial adecuado (una buena elección es un valor cercano al "mejor" de las ejecuciones reales del simulador). es un valor cercano al "mejor" de las ejecuciones reales del simulador).
Por ejemplo, la moda de la distribución suele estar en el conjunto típico, por lo que si se inicializa allí probablemente no sea necesario permitir un periodo de rodaje. Es posible que sepa (aproximadamente) dónde está la moda por construcción o conocimiento del dominio, o porque pudo encontrar el máximo global a través de métodos exactos o numéricos de antemano.