La definición de no identificabilidad es cuando varios valores de $\theta$ arrojan el mismo valor de probabilidad. Una situación en la que esto ocurre es cuando existe colinealidad exacta, por ejemplo ${\rm cor}(X_1, X_2) = 1$ y
$$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \varepsilon, \ \ \ \ \ \ \ \ \ \varepsilon \sim N(0, \sigma^2) $$
Bajo ese modelo, $\beta_1$ y $\beta_2$ no se identifican unívocamente (aunque $\beta_1 + \beta_2$ es); esto significa, por ejemplo, $\hat \beta_1 = 1, \hat \beta_2 = 1$ no se distingue de $\hat \beta_1 = 2, \hat \beta_2 = 0$ (es decir, esos dos valores de los parámetros generarían valores de probabilidad idénticos).
(Nota: en ese caso, el programa de adaptación suele marcar la solución como no identificada y, por tanto, elimina automáticamente una de las variables).
El otro autor tiene razón al afirmar que el uso de una prioridad (o una penalización de verosimilitud en la estimación frecuentista regularizada) a menudo puede ayudar a resolver este tipo de problemas. Esa es una de las razones por las que se utiliza la regresión ridge para combatir la inestabilidad generada por la colinealidad.