36 votos

Entrada de la Wikipedia sobre el riesgo parece ambiguo

Tengo una simple pregunta con respecto a la "probabilidad condicional" y "Probabilidad". (Ya he encuestados a esta pregunta aquí , pero fue en vano.)

Se inicia a partir de la Wikipedia página en la probabilidad. Ellos dicen esto:

La probabilidad de un conjunto de valores de parámetros, $\theta$, dado resultados de la $x$, es igual a la probabilidad de que los que se observan los resultados dado los valores de los parámetros, que es

$$\mathcal{L}(\theta \mid x) = P(x \mid \theta)$$

Genial!!! Así, en inglés, he leído este como: "La probabilidad de los parámetros que equivale theta, datos dado X = x, (el lado izquierdo), es igual a la probabilidad de que los datos de X es igual a x, dado que los parámetros son iguales a theta". (La negrita es mía para énfasis).

Sin embargo, no menos de 3 líneas más adelante en la misma página, la entrada de la Wikipedia, a continuación, pasa a decir:

Deje $X$ ser una variable aleatoria con una distribución de probabilidad discreta $p$ dependiendo de un parámetro de $\theta$. A continuación, la función

$$\mathcal{L}(\theta \mid x) = p_\theta (x) = P_\theta (X=x), \, $$

se considera como una función de la $\theta$, se llama la probabilidad de función (de $\theta$, dado el resultado $x$ de la variable aleatoria $X$). A veces, la probabilidad de que el valor de $x$ $X$ para el el valor del parámetro $\theta$ escrito $P(X=x\mid\theta)$; a menudo escrito como $P(X=x;\theta)$ destacar que esta diferencia de $\mathcal{L}(\theta \mid x) $ que no es una probabilidad condicional, debido a $\theta$ es un parámetro y no una variable aleatoria.

(La negrita es mía para énfasis). Así, en la primera cita, que son, literalmente, dice sobre la probabilidad condicional de a $P(x\mid\theta)$, pero inmediatamente después, se nos dice que esto en realidad NO es una probabilidad condicional, y debe ser hecho por escrito como $P(X = x; \theta)$?

Así, lo que uno es? ¿La probabilidad de que realmente connotar una probabilidad condicional ala primera cita? O connotar una probabilidad simple ala de la segunda cita?

EDITAR:

Basado en todos los útiles y acertadas respuestas que he recibido hasta ahora, he aquí un resumen de mi pregunta - y a mi entender, por lo tanto ahora como entonces:

  • En inglés, se dice que: "La probabilidad es una función de los parámetros, DADOS los datos observados." En matemáticas, que se escribe como: $L(\mathbf{\Theta}= \theta \mid \mathbf{X}=x)$.
  • La probabilidad no es una probabilidad.
  • La probabilidad no es una distribución de probabilidad.
  • La probabilidad no es una probabilidad de masas.
  • La probabilidad es, sin embargo, en inglés: "Un producto de distribuciones de probabilidad, (caso continuo), o un producto de la probabilidad de masas, (caso discreto), en donde $\mathbf{X} = x$, y parametrizada por $\mathbf{\Theta}= \theta$." En matemáticas, podemos entonces escribir como tal: $L(\mathbf{\Theta}= \theta \mid \mathbf{X}=x) = f(\mathbf{X}=x ; \mathbf{\Theta}= \theta) $ (caso continuo, donde $f$ es un PDF), y como
    $L(\mathbf{\Theta}= \theta \mid \mathbf{X}=x) = P(\mathbf{X}=x ; \mathbf{\Theta}= \theta) $ (caso discreto, donde $P$ es una probabilidad de masa). La conclusión aquí es que en ningún momento aquí en absoluto es una probabilidad condicional que entran en juego en todo.
  • En el teorema de Bayes, tenemos: $P(\mathbf{\Theta}= \theta \mid \mathbf{X}=x) = \frac{P(\mathbf{X}=x \mid \mathbf{\Theta}= \theta) \ P(\mathbf{\Theta}= \theta)}{P(\mathbf{X}=x)}$. Coloquialmente, se dice que "$P(\mathbf{X}=x \mid \mathbf{\Theta}= \theta)$ es un riesgo", sin embargo, esto no es cierto, ya que $\mathbf{\Theta}$ podría ser una opción real de variable aleatoria. Por lo tanto, lo que correctamente puede decir, sin embargo, es que este término $P(\mathbf{X}=x \mid \mathbf{\Theta}= \theta)$ es simplemente "similar" a una probabilidad. (?) [En esto no estoy seguro.]

EDIT II:

Basado en @amebas respuesta, me han sacado su último comentario. Creo que es bastante dilucidar, y creo que se aclara el argumento principal que estaba teniendo. (Comentarios sobre la imagen).

enter image description here

EDICIÓN III:

Yo extendida @amebas comentarios a la Bayesiana caso sólo ahora así:

enter image description here

29voto

zowens Puntos 1417

Creo que esto es en gran medida innecesaria la división de los pelos.

Probabilidad condicional $P(x\mid y)\equiv P(X=x \mid Y=y)$ $x$ $y$ está definido por dos variables aleatorias $X$ $Y$ tomando los valores de $x$$y$. Pero también podemos hablar de la probabilidad de $P(x\mid\theta)$ $x$ $\theta$ donde $\theta$ no es una variable aleatoria, sino un parámetro.

Tenga en cuenta que en ambos casos el mismo término "dada" y de la misma notación $P(\cdot\mid\cdot)$ puede ser utilizado. No hay necesidad de inventar diferentes notaciones. Por otra parte, lo que se llama "parámetro" y lo que se denomina "variable aleatoria" puede depender de su filosofía, pero las matemáticas no cambia.

La primera cita de Wikipedia dice que $\mathcal{L}(\theta \mid x) = P(x \mid \theta)$, por definición. Aquí se supone que $\theta$ es un parámetro. La segunda cita dice que $\mathcal{L}(\theta \mid x)$ es no una probabilidad condicional. Esto significa que no es una probabilidad condicional de a$\theta$$x$; y, de hecho, no puede ser, porque $\theta$ se supone que es un parámetro de aquí.

En el contexto del teorema de Bayes $$P(a\mid b)=\frac{P(b\mid a)P(a)}{P(b)},$$ both $un$ and $b$ are random variables. But we can still call $P(b\a mediados de a)$ "likelihood" (of $$), and now it is also a bona fide conditional probability (of $b$). Esta terminología es la norma en la estadística Bayesiana. Nadie dice que es algo "similar" a la probabilidad; la gente simplemente llame a la probabilidad.

Nota 1: En el último párrafo, $P(b\mid a)$ es obviamente una probabilidad condicional de a $b$. Como una probabilidad de $\mathcal L(a\mid b)$ es visto como una función de $a$; pero no es una distribución de probabilidad (o la probabilidad condicional) de $a$! Su integral sobre la $a$ no es necesariamente igual a $1$. (Mientras que su integral sobre la $b$).

Nota 2: a Veces, la probabilidad se define a una arbitraria constante de proporcionalidad, como lo puso de relieve @MichaelLew (porque la mayoría de las personas están interesadas en la probabilidad de proporciones). Esto puede ser útil, pero no siempre se hace y no es esencial.


Ver también Cuál es la diferencia entre "probabilidad" y "probabilidad"? y, en particular, @whuber la respuesta allí.

Estoy totalmente de acuerdo con @Tim respuesta en este hilo (+1).

20voto

Dipstick Puntos 4869

Usted ya tiene dos buenas respuestas, pero ya que parece que todavía no queda claro para que me proporcione una. La probabilidad se define como

$$ \mathcal{L}(\theta|X) = P(X|\theta) = \prod_i f_\theta(x_i) $$

so we have likelihood of some parameter value $\theta$ given the data $X$. It is equal to product of probability mass (discrete case), or density (continuous case) functions $f$ of $X$ parametrized by $\theta$. Likelihood is a function of parameter given the data. Notice that $\theta$ is a parameter that we are optimizing, not a random variable, so it does not have any probabilities assigned to it. This is why Wikipedia states that using conditional probability notation may be ambiguous, since we are not conditioning on any random variable. On another hand, in Bayesian setting $\theta$ is a random variable and does have distribution, so we can work with it as with any other random variable and we can use Bayes theorem to calculate the posterior probabilities. Bayesian likelihood is still likelihood since it tells us about likelihood of data given the parameter, the only difference is that the parameter is considered as random variable.

If you know programming, you can think of likelihood function as of overloaded function in programming. Some programming languages allow you to have function that works differently when called using different parameter types. If you think of likelihood like this, then by default if takes as argument some parameter value and returns likelihood of data given this parameter. On another hand, you can use such function in Bayesian setting, where parameter is random variable, this leads to basically the same output, but that can be understood as conditional probability since we are conditioning on random variable. In both cases the function works the same, just you use it and understand it a little bit differently.

// likelihood "as" overloaded function
Default Likelihood(Numeric theta, Data X) {
    return f(X, theta); // returns likelihood, not probability
}

Bayesian Likelihood(RandomVariable theta, Data X) {
    return f(X, theta); // since theta is r.v., the output can be
                        // understood as conditional probability
}

Moreover, you rather won't find Bayesians who write Bayes theorem as

$$ P(\theta|X) \propto \mathcal{L}(\theta|X) P(\theta) $$

...this would be very confusing. First, you would have $\theta|X$ on both sides of equation and it wouldn't have much sense. Second, we have posterior probability to know about probability of $\theta$ given data (i.e. the thing that you would like to know in likelihoodist framework, but you don't when $\theta$ is not a random variable). Third, since $\theta$ is a random variable, we have and write it as conditional probability. The $L$-la notación es generalmente reservado para likelihoodist configuración. El nombre de la probabilidad se usa por convención en ambos enfoques para denotar algo similar: ¿cómo la probabilidad de la observación de los cambios de los datos dado el modelo y el parámetro.

8voto

Auron Puntos 2123

Hay varios aspectos de las descripciones comunes de probabilidad de que sean imprecisos o de omitir el detalle de un modo que genere confusión. La entrada de la Wikipedia es un buen ejemplo.

En primer lugar, la probabilidad no puede ser generalmente igual a la probabilidad de los datos dado el valor del parámetro, como la probabilidad sólo se define a una constante de proporcionalidad. Fisher fue explícito acerca de que cuando por primera vez formalizada la probabilidad (Fisher, 1922). La razón por la que parece ser el hecho de que no hay ninguna restricción en la integral (o suma) de una función de probabilidad, y la probabilidad de observar los datos de $x$ dentro de un modelo estadístico dado cualquier valor del parámetro(s) está fuertemente afectada por la precisión de los valores de los datos y de la granularidad de la especificación de los valores de los parámetros.

En segundo lugar, es más útil pensar acerca de la probabilidad de la función de probabilidades. La función de probabilidad es una función del modelo de valor de parámetro(s), como es obvio, a partir de una gráfica de una función de probabilidad. Una gráfica también hace que sea fácil ver que las probabilidades de permitir una clasificación de los distintos valores del parámetro(s) de acuerdo a lo bien que el modelo predice los datos cuando se ajuste a los valores de los parámetros. La exploración de la probabilidad de funciones hace que los roles de los datos y los valores de los parámetros mucho más claro, en mi opinión, que puede reflexión de las diversas fórmulas dadas en la pregunta original.

El uso de una relación de pares de probabilidades dentro de una función de probabilidad como el grado relativo de soporte ofrecido por los datos observados para los valores de los parámetros (en el modelo) se presenta el problema de la desconocida constantes de proporcionalidad debido a los constantes cancelar en la relación. Es importante tener en cuenta que las constantes no necesariamente cancelar en una proporción de probabilidades que vienen de distintas funciones de probabilidad (es decir, a partir de diferentes modelos estadísticos).

Finalmente, es útil para ser explícito acerca de la función del modelo estadístico debido a que las probabilidades están determinadas por el modelo estadístico, así como los datos. Si usted elige un modelo diferente diferente de probabilidad de la función, y usted puede conseguir un desconocido constante de proporcionalidad.

Por lo tanto, para responder a la pregunta original, las probabilidades no son una probabilidad de cualquier tipo. No obedecen a prueba de Kolmogorov los axiomas de la probabilidad, y que juegan un papel diferente en la ayuda estadística de inferencia a partir de las funciones desempeñadas por los diferentes tipos de probabilidad.

  1. Fisher (1922) Sobre los fundamentos matemáticos de la estadística http://rsta.royalsocietypublishing.org/content/222/594-604/309

8voto

Trevor Boyd Smith Puntos 133

Wikipedia debe haber dicho que $L(\theta)$ no es una probabilidad condicional de a $\theta$ siendo en algunos especificado que se establezca, ni una densidad de probabilidad de $\theta$. De hecho, si hay infinitamente muchos de los valores de $\theta$ en el espacio de parámetros, usted puede tener $$ \sum_\theta L(\theta) = \infty, $$ por ejemplo, teniendo en $L(\theta)=1$, independientemente del valor de $\theta$, y si hay alguna medida estándar $d\theta$ en el espacio de parámetros $\Theta$, a continuación, en la misma forma en la que uno puede tener $$ \int_\Theta L(\theta)\,d\theta =\infty. $$ Un punto esencial que el artículo debe destacar es que el $L$ es la función $$ \theta \mapsto P(x\mid\theta) \text{ y } x\mapsto P(x\mid\theta). $$

3voto

Josh Pearce Puntos 2288

"He leído esta como: "La probabilidad de los parámetros que equivale theta, dado datos X = x, (el lado izquierdo), es igual a la probabilidad de que el los datos de X es igual a x, dado que los parámetros son iguales a theta". (La negrita es mía para énfasis)."

Es la probabilidad de que el conjunto de observaciones dado que el parámetro theta. Este es tal vez confuso, ya que escribir $P(x|\theta)$ pero, a continuación,$\mathcal{L}(\theta|x)$.

La explicación (algo objetivamente) implica que $\theta$ no es una variable aleatoria. Podría ser, por ejemplo, una variable aleatoria con algunos antes de la distribución en un Bayesiano de configuración. El punto sin embargo, es que suponemos $\theta=\theta$, un valor concreto y, a continuación, hacer declaraciones acerca de la probabilidad de nuestras observaciones. Esto es debido a que sólo hay un verdadero valor de $\theta$ en cualquiera que sea el sistema en que estamos interesados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X