2 votos

¿Preguntas sobre la probabilidad en las probabilidades?

  1. Muchos definen la probabilidad de los datos algo así como $\prod_{x} p(x|\theta)$ otros como $p(x|\theta)$ . ¿La probabilidad se define para un punto de muestra/elemento de datos (como un documento de una colección de documentos o una frase de una colección de frases), para toda la colección de elementos de datos, o para ambos?

  2. Es la probabilidad, en el algoritmo de maximización de expectativas (EM) $L(\theta|X)$ https://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm#Description y en el algoritmo de estimación de máxima verosimilitud (MLE) https://en.wikipedia.org/wiki/Maximum_likelihood_estimation#Principles ¿se considera que se toma de un elemento de datos o de toda la colección de elementos de datos? Por cierto, en el enlace de EM por qué la probabilidad se escribe como $L(\theta|X)=P(X|\theta)$ Sé que la X mayúscula significa una variable aleatoria en probabilidad, pero la probabilidad se define sobre los datos por lo que deberían escribir $P(x|\theta)$ o $P(X=x|\theta)$ ?

2voto

Viral patel Puntos 1

Una respuesta corta que funciona en general: estos términos son algo sueltos, y siempre pueden significar lo que sea más útil en un contexto particular. Si tiene un montón de muestras, por qué no utilizarlas todas y considerar $X$ para ser la colección de todas las muestras. Si sólo tienes una muestra, entonces eso es todo lo que puedes usar. Eres libre de hacer lo que quieras.

Pero para responder a sus preguntas más directamente:

  1. Usted da dos expresiones para la probabilidad: $\prod_x p(x\mid\theta)$ y $p(x\mid\theta)$ . La segunda expresión es simplemente la probabilidad condicional de un punto $x$ dada una elección de parámetros $\theta$ y así es como debe interpretarse. La primera expresión es el producto de muchas de estas probabilidades condicionales, o en otras palabras es la probabilidad condicional de muchos puntos de datos $X=\{x\}$ asumiendo que son independientes. En general, si no supiéramos nada sobre la independencia de los puntos de datos, tendríamos que trabajar con la distribución conjunta $p(X\mid\theta)$ pero dado que $x$ son independientes podemos factorizar la distribución en el producto $\prod_x p(x\mid\theta)$ . El supuesto de la independencia es común, así que probablemente por eso lo has visto.

  2. Lo he insinuado en la 1, pero la gente suele utilizar las minúsculas $x$ para referirse a una sola muestra, y las mayúsculas $X$ para referirse a toda la colección de datos en este contexto de probabilidades de datos. (A menudo, en un contexto más teórico, una mayúscula $X$ sería una variable aleatoria; la mayúscula aquí proviene de la convención de que las matrices son mayúsculas). Así que, como regla general, diría $L(\theta\mid X)$ sería probablemente la probabilidad de los parámetros dado un conjunto de datos completo. Pero, de nuevo, eres libre de hacer lo que quieras.

  3. De nuevo, no es necesariamente cierto que el capital $X$ significa una variable aleatoria. Puede que sea cierto en ese contexto, pero siempre hay que prestar atención al contexto y al uso de los autores que te interesan. Los matemáticos son flojos con la notación y eso es lo que es. Supongo que mi moraleja aquí es que no hay que asumir siempre que las mismas letras significan lo mismo en diferentes artículos. Por ejemplo, en esa página de EM, están haciendo algo bastante complicado, que es tomar una expectativa contra la medida de probabilidad de todo el conjunto de datos. Este objeto es bastante abstracto y difícil de concebir, y creo que es mejor entender EM concretamente trabajando a través de un caso particular - es realmente toda una familia de algoritmos y describirlo en general tiende a ser vago.

Respuestas a las preguntas en los comentarios:

  • Puedo afirmarlo con seguridad, $P(X=x\mid\theta)$ tiende a referirse a la probabilidad de que una variable aleatoria $X$ adquiere un valor $x$ dados los parámetros $\theta$ . Pero en $P(X\mid\theta)$ , $X$ puede ser una variable aleatoria o un conjunto de datos. De nuevo, estas cosas deberían estar siempre claras en un caso determinado, así que creo que no merece la pena preocuparse por estas generalidades. En el caso de que $X$ es una variable aleatoria, $P(X\mid\theta)$ probablemente se refiera a toda la distribución y no a una probabilidad concreta, por lo que me inclinaría a interpretarlo como una distribución de probabilidad (una función(al)) en lugar de una probabilidad (un número) si me lo encontrara.

  • En cuanto a la notación de Wikipedia por la que preguntabas, ciertamente pueden ser ambas cosas, y los MLEs mejorarán en precisión con más datos, así que también podrías pensar en ello como el conjunto de datos. Pero Wikipedia tiende a tener una notación realmente extraña e inconsistente, ya que está escrita en colaboración por personas al azar con diferentes antecedentes, por lo que realmente no haría hincapié en la notación de ese sitio. En particular, si estás tratando de aprender estas cosas, no lo hagas en Wikipedia - consigue un libro de texto. Tal vez "Elementos de Aprendizaje Estadístico" u otro texto clásico - creo que está fuera del alcance de esta pregunta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X