674 votos

¿Cuál es la diferencia entre "probabilidad" y "posibilidad"?

El página de wikipedia afirma que la verosimilitud y la probabilidad son conceptos distintos.

En el lenguaje no técnico, "probabilidad" suele ser un sinónimo de "probabilidad", pero en el uso estadístico hay una clara distinción en la perspectiva: el número que es la probabilidad de algunos resultados observados dado un conjunto de valores de los parámetros se considera la probabilidad del conjunto de valores de los parámetros dados los resultados observados.

¿Puede alguien dar una descripción más realista de lo que esto significa? Además, estaría bien algún ejemplo de cómo discrepan la "probabilidad" y la "verosimilitud".

28 votos

Gran pregunta. Yo también añadiría "probabilidades" y "azar" :)

7 votos

Creo que deberías echar un vistazo a esta pregunta stats.stackexchange.com/questions/665/ porque la probabilidad es para fines estadísticos y la probabilidad para la probabilidad.

5 votos

Wow, estos son algunos realmente buenas respuestas. Así que muchas gracias por ello. En algún momento, escogeré una que me guste especialmente como respuesta "aceptada" (aunque hay varias que creo que son igualmente merecidas).

487voto

La respuesta depende de si se trata de variables aleatorias discretas o continuas. Por lo tanto, dividiré mi respuesta en función de ello. Asumiré que quieres algunos detalles técnicos y no necesariamente una explicación en inglés sencillo.

Variables aleatorias discretas

Supongamos que tenemos un proceso estocástico que toma valores discretos (por ejemplo, los resultados de lanzar una moneda 10 veces, el número de clientes que llegan a una tienda en 10 minutos, etc.). En estos casos, podemos calcular la probabilidad de observar un determinado conjunto de resultados haciendo las suposiciones adecuadas sobre el proceso estocástico subyacente (por ejemplo, la probabilidad de que la moneda salga cara es $p$ y que los lanzamientos de monedas son independientes).

Denotemos los resultados observados por $O$ y el conjunto de parámetros que describen el proceso estocástico como $\theta$ . Así, cuando hablamos de probabilidad queremos calcular $P(O|\theta)$ . En otras palabras, dados los valores específicos de $\theta$ , $P(O|\theta)$ es la probabilidad de que observemos los resultados representados por $O$ .

Sin embargo, cuando modelamos un proceso estocástico de la vida real, a menudo no sabemos $\theta$ . Simplemente observamos $O$ y el objetivo entonces es llegar a una estimación de $\theta$ que sería una opción plausible dados los resultados observados $O$ . Sabemos que dado un valor de $\theta$ la probabilidad de observar $O$ es $P(O|\theta)$ . Por lo tanto, un proceso de estimación "natural" es elegir ese valor de $\theta$ que maximice la probabilidad de que observemos realmente $O$ . En otras palabras, encontramos los valores de los parámetros $\theta$ que maximizan la siguiente función:

$L(\theta|O) = P(O|\theta)$

$L(\theta|O)$ se denomina función de probabilidad. Obsérvese que, por definición, la función de verosimilitud está condicionada por lo observado $O$ y que es una función de los parámetros desconocidos $\theta$ .

Variables aleatorias continuas

En el caso continuo la situación es similar con una diferencia importante. Ya no podemos hablar de la probabilidad de que observemos $O$ dado $\theta$ porque en el caso continuo $P(O|\theta) = 0$ . Sin entrar en tecnicismos, la idea básica es la siguiente:

Denotemos la función de densidad de probabilidad (pdf) asociada a los resultados $O$ como: $f(O|\theta)$ . Así, en el caso continuo estimamos $\theta$ dados los resultados observados $O$ maximizando la siguiente función:

$L(\theta|O) = f(O|\theta)$

En esta situación, no podemos afirmar técnicamente que estamos encontrando el valor del parámetro que maximiza la probabilidad de que observemos $O$ ya que maximizamos la PDF asociada a los resultados observados $O$ .

60 votos

La distinción entre variables discretas y continuas desaparece desde el punto de vista de la teoría de medidas.

41 votos

@whuber sí, pero una respuesta utilizando la teoría de la medida no es tan accesible a todos.

26 votos

@Srikant: De acuerdo. El comentario era en beneficio de la OP, que es un matemático (pero tal vez no un estadístico) para evitar ser engañado pensando que hay algo fundamental acerca de la distinción.

211voto

jldugger Puntos 7490

Este es el tipo de pregunta que casi todo el mundo va a responder y yo esperaría que todas las respuestas fueran buenas. Pero tú eres matemático, Douglas, así que déjame ofrecer una respuesta matemática.

Un modelo estadístico tiene que conectar dos entidades conceptuales distintas: datos que son elementos $x$ de algún conjunto (como un espacio vectorial), y una posible modelo del comportamiento de los datos. Los modelos suelen representarse mediante puntos $\theta$ en un colector de dimensión finita, un colector con límites o un espacio de funciones (este último se denomina problema "no paramétrico").

Los datos $x$ están relacionados con los posibles modelos $\theta$ mediante una función $\Lambda(x, \theta)$ . Para cualquier $\theta$ , $\Lambda(x, \theta)$ pretende ser la probabilidad (o densidad de probabilidad) de $x$ . Para cualquier $x$ Por otro lado, $\Lambda(x, \theta)$ puede verse como una función de $\theta$ y se suele suponer que tiene ciertas propiedades agradables, como ser continuamente segundo diferenciable. La intención de ver $\Lambda$ de esta manera y para invocar estos supuestos se anuncia llamando a $\Lambda$ la "probabilidad".

Es como la distinción entre variables y parámetros en una ecuación diferencial: a veces queremos estudiar la solución (es decir, nos centramos en las variables como argumento) y otras veces queremos estudiar cómo varía la solución con los parámetros. La principal distinción es que en estadística rara vez necesitamos estudiar la variación simultánea de ambos conjuntos de argumentos; no hay ningún objeto estadístico que se corresponda naturalmente con el cambio de ambos datos $x$ y los parámetros del modelo $\theta$ . Por eso se oye hablar más de esta dicotomía que en entornos matemáticos análogos.

9 votos

+1, qué respuesta más chula. La analogía con las ecuaciones diferenciales parece muy apropiada.

3 votos

Como economista, aunque esta respuesta no se relaciona tanto como la anterior con los conceptos que he aprendido, fue la más informativa en un sentido intuitivo. Muchas gracias.

1 votos

En realidad, esta afirmación no es realmente cierta "no hay ningún objeto estadístico que corresponda naturalmente a la modificación tanto de los datos x como de los parámetros del modelo ". Lo hay, se llama "suavizar, filtrar y predecir", en los modelos lineales es el filtro de Kalman, en los modelos no lineales, tienen los filtros no lineales completos, es.wikipedia.org/wiki/Kushner_equation etc.

167voto

palmsey Puntos 3799

Intentaré minimizar las matemáticas en mi explicación, ya que hay algunas buenas explicaciones matemáticas.

Como comenta Robin Girard, la diferencia entre probabilidad y verosimilitud está estrechamente relacionada con la diferencia entre probabilidad y estadística . En cierto sentido, la probabilidad y la estadística se ocupan de problemas opuestos o inversos entre sí.

Considere un lanzamiento de moneda. (Mi respuesta será similar a Ejemplo 1 en Wikipedia .) Si sabemos que la moneda es justa ( $p=0.5$ ) una pregunta típica de probabilidad es: ¿Cuál es la probabilidad de obtener dos caras seguidas? La respuesta es $P(HH) = P(H)\times P(H) = 0.5\times0.5 = 0.25$ .

Una pregunta estadística típica es: ¿Es justa la moneda? Para responder a esta pregunta tenemos que preguntar: ¿En qué medida nuestra muestra apoya la hipótesis de que $P(H) = P(T) = 0.5$ ?

El primer punto a destacar es que el sentido de la pregunta se ha invertido. En la probabilidad se parte de un parámetro supuesto ( $P(head)$ ) y estimar la probabilidad de una muestra determinada (dos cabezas seguidas). En estadística partimos de la observación (dos cabezas seguidas) y hacemos INFERENCIA sobre nuestro parámetro ( $p = P(H) = 1- P(T) = 1 - q$ ).

Ejemplo 1 en Wikipedia nos muestra que la estimación de máxima verosimilitud de $P(H)$ después de 2 cabezas seguidas es $p_{MLE} = 1$ . Pero los datos no descartan de ninguna manera el verdadero valor del parámetro $p(H) = 0.5$ (no nos preocupemos de los detalles por el momento). De hecho, sólo valores muy pequeños de $p(H)$ y en particular $p(H)=0$ puede ser razonablemente eliminado después de $n = 2$ (dos lanzamientos de la moneda). Después de la tercer lanzamiento sale cruz ahora podemos eliminar la posibilidad de que $P(H) = 1.0$ (es decir, no es una moneda de dos caras), pero la mayoría de los valores intermedios pueden ser razonablemente apoyado por los datos . (Un intervalo de confianza binomial exacto del 95% para $p(H)$ es de 0,094 a 0,992.

Después de 100 lanzamientos de la moneda y (digamos) 70 caras, ahora tenemos una base razonable para la sospecha de que la moneda no es, de hecho, justa. Un IC exacto del 95% sobre $p(H)$ es ahora de 0,600 a 0,787 y la probabilidad de observar un resultado tan extremo como 70 o más caras (o colas) de 100 lanzamientos dados $p(H) = 0.5$ es 0,0000785.

Aunque no he utilizado explícitamente los cálculos de probabilidad, este ejemplo capta el concepto de probabilidad: La probabilidad es una medida de la medida en que una muestra proporciona apoyo a determinados valores de un parámetro en un modelo paramétrico .

3 votos

¡Gran respuesta! Especialmente los tres últimos párrafos son muy útiles. ¿Cómo ampliarías esto para describir el caso continuo?

10 votos

Para mí, la mejor respuesta. No me molestan las matemáticas en absoluto, pero para mí las matemáticas son un herramienta regido por lo que quiero (no disfruto de las matemáticas por sí mismas, sino por lo que me ayudan a hacer). Sólo con esta respuesta sé esto último.

102voto

Ned Puntos 116

Teniendo en cuenta todas las finas respuestas técnicas anteriores, permítanme volver al lenguaje: La probabilidad cuantifica la anticipación (del resultado), la verosimilitud cuantifica la confianza (en el modelo).

Supongamos que alguien nos reta a un "juego rentable". Entonces, las probabilidades nos servirán para calcular cosas como el perfil esperado de sus ganancias y pérdidas (media, moda, mediana, varianza, ratio de información, valor en riesgo, ruina del jugador, etc.). En cambio, la probabilidad nos servirá para cuantificar si nos fiamos de esas probabilidades en primer lugar; o si nos "olemos una rata".


Por cierto, ya que alguien ha mencionado las religiones de la estadística, creo que la razón de verosimilitud es una parte integral del mundo bayesiano, así como del frecuentista: En el mundo bayesiano, la fórmula de Bayes sólo combina el previo con la probabilidad para producir el posterior.

4 votos

Esta respuesta lo resume todo para mí. Tuve que pensar qué quería decir cuando leí que verosimilitud no es probabilidad, pero se me ocurrió el siguiente caso. ¿Cuál es la probabilidad de que una moneda sea justa, dado que vemos cuatro caras seguidas? En realidad, aquí no podemos decir nada sobre probabilidad, pero la palabra "confianza" parece adecuada. ¿Creemos que podemos fiarnos de la moneda?

2 votos

Inicialmente, este podría haber sido el propósito histórico de las probabilidades, pero hoy en día las probabilidades son todos los cálculos bayesianos, y se sabe que las probabilidades pueden amalgamar creencias y verosimilitud, razón por la cual se creó la teoría de Dempster-Shafer, para desambiguar ambas interpretaciones.

1 votos

¡Gran respuesta! Muchas gracias.

81voto

Omar Kooheji Puntos 384

Te daré la perspectiva desde el punto de vista de la Teoría de la Probabilidad que se originó con Fisher -- y es la base de la definición estadística en el citado artículo de Wikipedia.

Supongamos que se dispone de variantes aleatorias $X$ que surgen de una distribución parametrizada $F(X; \theta)$ , donde $\theta$ es el parámetro que caracteriza a $F$ . Entonces la probabilidad de $X = x$ sería: $P(X = x) = F(x; \theta)$ , con el conocido $\theta$ .

Más a menudo, se tienen datos $X$ y $\theta$ es desconocido. Dado el modelo asumido $F$ la probabilidad se define como la probabilidad de los datos observados en función de $\theta$ : $L(\theta) = P(\theta; X = x)$ . Tenga en cuenta que $X$ es conocido, pero $\theta$ es desconocido; de hecho, la motivación para definir la probabilidad es determinar el parámetro de la distribución.

Aunque parezca que simplemente hemos reescrito la función de probabilidad, una consecuencia clave de esto es que la función de probabilidad no no obedece a las leyes de la probabilidad (por ejemplo, no está limitada al intervalo [0, 1]). Sin embargo, la función de probabilidad es proporcional a la probabilidad de los datos observados.

Este concepto de verosimilitud conduce en realidad a una escuela de pensamiento diferente, los "verosimilistas" (distintos de los frecuentistas y los bayesianos) y se puede buscar en Google los distintos debates históricos. La piedra angular es el Principio de probabilidad que esencialmente dice que podemos realizar la inferencia directamente a partir de la función de verosimilitud (ni los bayesianos ni los frecuentistas aceptan esto ya que no es una inferencia basada en la probabilidad). Hoy en día, mucho de lo que se enseña como "frecuentista" en las escuelas es en realidad una amalgama de pensamiento frecuentista y probabilístico.

Para una visión más profunda, un buen comienzo y una referencia histórica es el libro de Edwards Probabilidad . Para una visión moderna, recomiendo la maravillosa monografía de Richard Royall, Pruebas estadísticas: Un paradigma de probabilidad .

3 votos

Interesante respuesta, en realidad pensaba que la "escuela de la probabilidad" era básicamente la "escuela de los frecuentistas que no diseñan muestras", mientras que la "escuela del diseño" era el resto de los frecuentistas. De hecho, a mí mismo me resulta difícil decir a qué "escuela" pertenezco, ya que tengo un poco de conocimiento de cada escuela. La escuela de la "probabilidad como lógica extendida" es mi favorita (duh), pero no tengo suficiente experiencia práctica en su aplicación a problemas reales como para ser dogmático al respecto.

5 votos

+1 para "la función de probabilidad no obedece a las leyes de la probabilidad (por ejemplo, no está limitada al intervalo [0, 1]). Sin embargo, la función de probabilidad es proporcional a la probabilidad de los datos observados".

11 votos

"la función de probabilidad no obedece a las leyes de la probabilidad" podría aclararse un poco más, sobre todo porque está escrita como : L()=P(;X=x), es decir, ¡se equipara a una probabilidad!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X