La respuesta depende de si se trata de variables aleatorias discretas o continuas. Por lo tanto, dividiré mi respuesta en función de ello. Asumiré que quieres algunos detalles técnicos y no necesariamente una explicación en inglés sencillo.
Variables aleatorias discretas
Supongamos que tenemos un proceso estocástico que toma valores discretos (por ejemplo, los resultados de lanzar una moneda 10 veces, el número de clientes que llegan a una tienda en 10 minutos, etc.). En estos casos, podemos calcular la probabilidad de observar un determinado conjunto de resultados haciendo las suposiciones adecuadas sobre el proceso estocástico subyacente (por ejemplo, la probabilidad de que la moneda salga cara es $p$ y que los lanzamientos de monedas son independientes).
Denotemos los resultados observados por $O$ y el conjunto de parámetros que describen el proceso estocástico como $\theta$ . Así, cuando hablamos de probabilidad queremos calcular $P(O|\theta)$ . En otras palabras, dados los valores específicos de $\theta$ , $P(O|\theta)$ es la probabilidad de que observemos los resultados representados por $O$ .
Sin embargo, cuando modelamos un proceso estocástico de la vida real, a menudo no sabemos $\theta$ . Simplemente observamos $O$ y el objetivo entonces es llegar a una estimación de $\theta$ que sería una opción plausible dados los resultados observados $O$ . Sabemos que dado un valor de $\theta$ la probabilidad de observar $O$ es $P(O|\theta)$ . Por lo tanto, un proceso de estimación "natural" es elegir ese valor de $\theta$ que maximice la probabilidad de que observemos realmente $O$ . En otras palabras, encontramos los valores de los parámetros $\theta$ que maximizan la siguiente función:
$L(\theta|O) = P(O|\theta)$
$L(\theta|O)$ se denomina función de probabilidad. Obsérvese que, por definición, la función de verosimilitud está condicionada por lo observado $O$ y que es una función de los parámetros desconocidos $\theta$ .
Variables aleatorias continuas
En el caso continuo la situación es similar con una diferencia importante. Ya no podemos hablar de la probabilidad de que observemos $O$ dado $\theta$ porque en el caso continuo $P(O|\theta) = 0$ . Sin entrar en tecnicismos, la idea básica es la siguiente:
Denotemos la función de densidad de probabilidad (pdf) asociada a los resultados $O$ como: $f(O|\theta)$ . Así, en el caso continuo estimamos $\theta$ dados los resultados observados $O$ maximizando la siguiente función:
$L(\theta|O) = f(O|\theta)$
En esta situación, no podemos afirmar técnicamente que estamos encontrando el valor del parámetro que maximiza la probabilidad de que observemos $O$ ya que maximizamos la PDF asociada a los resultados observados $O$ .
28 votos
Gran pregunta. Yo también añadiría "probabilidades" y "azar" :)
7 votos
Creo que deberías echar un vistazo a esta pregunta stats.stackexchange.com/questions/665/ porque la probabilidad es para fines estadísticos y la probabilidad para la probabilidad.
5 votos
Wow, estos son algunos realmente buenas respuestas. Así que muchas gracias por ello. En algún momento, escogeré una que me guste especialmente como respuesta "aceptada" (aunque hay varias que creo que son igualmente merecidas).
1 votos
También hay que tener en cuenta que el "cociente de probabilidad" es en realidad un "cociente de probabilidad", ya que es una función de las observaciones.
1 votos
He aquí una explicación en imágenes del canal de Youtube de StatQuest: youtu.be/pYxNSUDSFH4