Debes pensar en términos de la norma de un estado, y lo que sucede aquí es que tienes estados de norma negativa que no quieres, de lo contrario no puedes construir un espacio de Hilbert.
Copiando la fórmula en Wikipedia, $$ \langle\vec{k}_a;\epsilon_\mu|\vec{k}_b;\epsilon_\nu\rangle=(-\eta_{\mu\nu}){1\over 2|\vec{k}_a|}\delta(\vec{k}_a-\vec{k}_b) $$ ves que para $\mu=\nu=0,$ tomando la firma métrica como $(+,-,-,-),$ se encuentran estados normativos negativos. Como esto te impide construir un espacio de Hilbert, no tiene sentido hablar de probabilidad: a saber, si defines una probabilidad como una norma, entonces obtienes una probabilidad negativa, pero esto es sólo reformular la cuestión.
Dicho de otro modo, $ \langle\vec{k}_a|\vec{k}_a \rangle$ sería tanto negativa como la norma de un vector para algunos estados, prevenir una interpretación probabilística, por eso se habla de probabilidad negativa. Nótese que, efectivamente, un espacio de Hilbert garantiza que las probabilidades están bien definidas.
Creo que otro punto de vista útil en esta historia es que, una vez que se implementa la restricción $\epsilon \cdot k=0$ estás con 3 grados de libertad, y eliminas el último diciendo que tu espacio de Hilbert es el cociente de estados de norma positiva sobre estados de norma cero, y esto hay que pensarlo realmente como equivalencia gauge, es decir, los grados de libertad gauge son redundancias, es decir, estados no físicos.