La función de densidad de probabilidad está bien caracterizada: tiene que ser medible y debe integrarse hasta 1, y debe ser no negativa sobre su soporte. En este caso, el vector de parámetros se considera fijo, y se encuentra dentro de una familia de distribuciones paramétricas, como Exp( $\theta$ ) o Weibull o...
Para la estimación y la estadística, se introduce el concepto de probabilidad. A grandes rasgos es una función de los parámetros y no de los datos, ya que cuando maximizamos la verosimilitud, encontramos los parámetros que dan el conjunto de datos más "probable" según esa familia de distribuciones paramétricas y no al revés. Sin embargo, tal y como yo lo entiendo: la verosimilitud no tiene requisitos funcionales en función de $\theta$ . Seguro que será distinto de cero, ya que es el producto de densidades. Pero puede que no sume 1 si integramos sobre $\theta$ (tendríamos que multiplicar por un previo para obtener ese tipo de resultado bayesiano).
A continuación, entramos en estas diversas formas de probabilidad: a cuasi probabilidad, un pseudo la probabilidad, condicional probabilidad, un parcial probabilidad, y así sucesivamente. Estos representan respectivamente situaciones en las que decimos: "Bueno... no es una probabilidad adecuada, pero voy a maximizarla y ver qué pasa de todos modos". La delegación de estos títulos sugiere que sólo cuando sabemos con certeza que la modelo de probabilidad es apropiado para los datos, el uso del término "probabilidad" está justificado. Pero, ¿sería ese el caso en la mayoría de los escenarios prácticos? Seguramente, eso implica suposiciones que no son ni verificables ni interesantes.
Tomemos como ejemplo la prueba t emparejada. Esta es la máxima probabilidad condicional. No me importan las diferencias de medias entre pares, así que restando las observaciones emparejadas, puedo modelar directamente las diferencias de medias univariantes dentro de los pares. ¿Por qué no es posible decir que estoy utilizando un modelo de probabilidad normal para las diferencias entre pares? ¿No puedo llamar a tal cosa una probabilidad?
¿Existe una forma más práctica o sólida de entender la estimación de máxima verosimilitud? ¿No deberíamos llamar a todo un pseudo - o cuasi - ¿probabilidad en toda la estimación e inferencia?