Sea $X = \langle X_1, \dots, X_n \rangle^{\top}$ sea una muestra finita de observación $X$ donde $X \sim \mathbb{P}_{\theta_0}$ con $\theta_0 \in \Theta$ y densidad $f_X(x; \theta_0)$ . El parámetro verdadero $\theta_0$ es globalmente identificable si
$$ \forall \theta \neq \theta_0 \implies \mathbb{P}[f_X(x; \theta) \neq f_X(x; \theta_0)] > 0$$
Mis apuntes de clase dicen entonces que debido a la desigualdad de información para el logaritmo de probabilidad,
$$ \mathbb{E}_{\theta_0} [\ell_n(\theta)] \leq \mathbb{E}_{\theta_0}[\ell_{n}(\theta_0)], \qquad \forall \theta \in \Theta \subseteq \mathbb{R}^d. $$
esto implica una identificación global, es decir
$$ \mathbb{E}_{\theta_0} [\ell_n(\theta)] < \mathbb{E}_{\theta_0}[\ell_{n}(\theta_0)], \qquad \forall \theta \neq \theta_0. $$
No sigo este último paso. ¿Por qué la desigualdad se vuelve estricta? ¿Cómo se relaciona esta última desigualdad con la definición de identificación global?