La cuestión es que, a veces, diferentes modelos (para los mismos datos) pueden dar lugar a funciones de verosimilitud que difieren en una constante multiplicativa, pero el contenido informativo debe ser claramente el mismo. Un ejemplo:
Modelamos $n$ experimentos Bernoulli independientes, que conducen a datos $X_1, \dots, X_n$ cada una con una distribución Bernoulli con parámetro (de probabilidad) $p$ . Esto conduce a la función de verosimilitud $$ \prod_{i=1}^n p^{x_i} (1-p)^{1-x_i} $$ O podemos resumir los datos mediante la variable distribuida binomialmente $Y=X_1+X_2+\dotsm+X_n$ que tiene una distribución binomial, lo que conduce a la función de verosimilitud $$ \binom{n}{y} p^y (1-p)^{n-y} $$ que, en función del parámetro desconocido $p$ es proporcional a la función de verosimilitud anterior. Las dos funciones de verosimilitud contienen claramente la misma información y deberían conducir a las mismas inferencias.
Y, de hecho, por definición, se consideran la misma función de probabilidad.
Otro punto de vista: observe que cuando las funciones de verosimilitud se utilizan en el teorema de Bayes, como se necesita para el análisis bayesiano, ¡estas constantes multiplicativas simplemente se cancelan! por lo que son claramente irrelevantes para la inferencia bayesiana. Del mismo modo, se cancelarán al calcular los cocientes de verosimilitud, como se utiliza en las pruebas de hipótesis óptimas (lema de Neyman-Pearson.) Y no influirán en el valor de los estimadores de máxima verosimilitud. Así que podemos ver que en gran parte de la inferencia frecuentista no puede desempeñar ningún papel.
Podemos argumentar desde otro punto de vista. La función de probabilidad de Bernoulli (a partir de ahora utilizaremos el término "densidad") es en realidad una densidad con respecto a la medida de recuento, es decir, la medida sobre los enteros no negativos con masa uno para cada entero no negativo. Pero podríamos haber definido una densidad con respecto a alguna otra medida dominante. En este ejemplo esto parecerá (y es) artificial, pero en espacios mayores (espacios de funciones) ¡es realmente fundamental! Utilicemos, a título ilustrativo, la distribución geométrica específica, escrita $\lambda$ con $\lambda(0)=1/2$ , $\lambda(1)=1/4$ , $\lambda(2)=1/8$ etc. Entonces la densidad de la distribución Bernoulli con respecto a $\lambda$ viene dada por $$ f_{\lambda}(x) = p^x (1-p)^{1-x}\cdot 2^{x+1} $$ lo que significa que $$ P(X=x)= f_\lambda(x) \cdot \lambda(x) $$ Con esta nueva medida dominante, la función de verosimilitud pasa a ser (con la notación anterior) $$ \prod_{i=1}^n p^{x_i} (1-p)^{1-x_i} 2^{x_i+1} = p^y (1-p)^{n-y} 2^{y+n} $$ tenga en cuenta el factor adicional $2^{y+n}$ . Así, al cambiar la medida dominante utilizada en la definición de la función de verosimilitud, surge una nueva constante multiplicativa, que no depende del parámetro desconocido $p$ y es claramente irrelevante. Esta es otra forma de ver cómo las constantes multiplicativas deben ser irrelevantes. Este argumento se puede generalizar utilizando derivadas de Radon-Nikodym (como el argumento anterior es un ejemplo de.)