31 votos

En términos sencillos ¿cuál es la diferencia entre un modelo y una distribución?

Las respuestas (definiciones) definido en la Wikipedia son, posiblemente, un poco críptico para los no familiarizados con la alta matemática/estadística.

enter image description here

Soy un estudiante de secundaria muy interesado en este campo como un hobby y actualmente estoy luchando con las diferencias entre lo que es un statistical model y probability distribution

Mi actual, y muy rudimentaria, la comprensión es este:

  • modelos estadísticos matemáticos intenta aproximar distribuciones de medición

  • distribuciones de probabilidad se mide descripciones de los experimentos que asigna probabilidades a cada uno de los posibles resultados de un evento aleatorio

la confusión se agrava aún más por la tendencia en la literatura para ver las palabras "distribución" y "modelo" se utilizan indistintamente - o al menos muy similares situaciones (por ejemplo, distribución binomial vs modelo binomial)

Alguien puede verificar/corregir mis definiciones, y tal vez de una manera más formalizada (aunque todavía en términos de simple en inglés) de aproximación a estos conceptos?

27voto

Dipstick Puntos 4869

Distribución de probabilidad es una función matemática que describe una variable aleatoria. Un poco más precisamente, es una función que asigna probabilidades a los números y de su salida tiene que estar de acuerdo con los axiomas de la probabilidad.

Modelo estadístico es un resumen, idealizada descripción de un fenómeno en términos matemáticos mediante distribuciones de probabilidad. Citando Wasserman (2013):

Un modelo estadístico $\mathfrak{F}$ es un conjunto de distribuciones (o la densidad de funciones de regresión). Un modelo paramétrico es un conjunto $\mathfrak{F}$ que puede ser parametrizado por un número finito de los parámetros. [...]

En general, un modelo paramétrico toma la forma

$$ \mathfrak{F} = \{ f (x; \theta) : \theta \in \Theta \} $$

donde $\theta$ es un parámetro desconocido (o vector de parámetros) que puede tomar valores en el espacio de parámetros $\Theta$. Si $\theta$ es un vector pero sólo estamos interesados en uno de los componentes de $\theta$, se llame el resto de los parámetros de la molestia de los parámetros. Un test no paramétrico de el modelo es un conjunto $\mathfrak{F}$ que no puede ser parametrizado por un número finito de parámetros.

En muchos casos utilizamos distribuciones como modelos (se puede comprobar en este ejemplo). Puede utilizar la distribución binomial como un modelo de cuenta de cabezas de serie de la moneda con la lanza. En tal caso se supone que esta distribución describe, en forma simplificada, los resultados reales. Esto no quiere decir que esta es sólo una forma en cómo se puede describir este fenómeno, ni que la distribución binomial es algo que solamente puede ser utilizado para este propósito. El modelo puede utilizar uno o más distribuciones, mientras Bayesiano de modelos especificar también las distribuciones previas.

Más formalmente, esto es discutido por McCullaugh (2002):

De acuerdo a la actualmente aceptada teorías [Cox y Hinkley (1974), Capítulo 1; Lehmann (1983), en el Capítulo 1; Barndorff-Nielsen y Cox (1994), la Sección 1.1; Bernardo y Smith (1994), Capítulo 4] modelo estadístico es un conjunto de distribuciones de probabilidad en la muestra espacio de $\mathcal{S}$. Parámetros estadísticos del modelo es un parámetro $\Theta$ junto con una función $P : \Theta \rightarrow \mathcal{P} (\mathcal{S})$, que asigna a cada parámetro punto $\mathcal{\theta \in \Theta}$ una distribución de probabilidad $P \theta$ en $\mathcal{S}$. Aquí $\mathcal{P}(\mathcal{S})$ es el conjunto de todos los distribuciones de probabilidad en $\mathcal{S}$. En gran parte de la siguiente, es importante distinguir entre el modelo como una función de P$: \Theta \rightarrow \mathcal{P} (\mathcal{S}) $, y el conjunto asociado de distribuciones $P\Theta \subset \mathcal{P} (\mathcal{S})$.

Así que los modelos estadísticos para el uso de distribuciones de probabilidad para describir los datos en sus términos. Los modelos paramétricos también se describen en términos de un conjunto finito de parámetros.

Esto no significa que todos los métodos estadísticos necesidad de distribuciones de probabilidad. Por ejemplo, la regresión lineal se describe a menudo en términos de normalidad asunción, pero en realidad es bastante robusto a las desviaciones de la normalidad y necesitamos suposición acerca de la normalidad de los errores de los intervalos de confianza y pruebas de hipótesis. Así que para la regresión a trabajar no necesitamos de esas hipótesis, pero totalmente especificado modelo estadístico que necesitamos para describir en términos de variables aleatorias, por lo que necesitamos de las distribuciones de probabilidad. Escribo sobre esto porque a menudo se puede oír a la gente diciendo que se utilizó el modelo de regresión para sus datos, en la mayoría de esos casos que más bien significa que describen los datos en términos de la relación lineal entre los valores de destino y los predictores del uso de algunos parámetros, que insistir en la condicional a la normalidad.


McCullagh, P. (2002). ¿Qué es un modelo estadístico? Anales de estadísticas, 1225-1267.

Wasserman, L. (2013). Todas las estadísticas: un breve curso de inferencia estadística. Springer.

8voto

jldugger Puntos 7490

Creo que de $\mathcal{S}$ como un conjunto de entradas. Usted puede escribir cosas en un billete. Generalmente un billete comienza con el nombre de algunos de los del mundo real de la persona o el objeto que se "representa" o "modelos." Hay un montón de espacio en blanco en cada boleto para escribir otras cosas.

Puedes hacer tantas copias de cada una de las entradas que desee. Un modelo de probabilidad $\mathbb{P}$ de esta población en el mundo real o el proceso consiste en hacer una o más copias de cada boleto, la mezcla de ellos, y ponerlos en una caja. Si usted--la--analista puede establecer que el proceso de elaboración de un boleto al azar a partir de este cuadro emula todo el comportamiento importante de lo que se está estudiando, entonces usted puede aprender mucho sobre el mundo por el pensamiento acerca de este cuadro. Debido a que algunas entradas pueden ser más numerosos en el cuadro que otros, que pueden tener diferencia posibilidades de ser dibujado. La teoría de la probabilidad estudios de estas posibilidades.

Cuando los números están escritos en las entradas (en una forma consistente), dan lugar a (probabilidad) de las distribuciones. Una distribución de probabilidad , sólo describe la proporción de billetes en una caja cuyos números se encuentran dentro de cualquier intervalo de tiempo dado.

Debido a que habitualmente no sabemos exactamente cómo el mundo se comporta, tenemos que imaginar diferentes cajas en las que las entradas aparecen con diferentes frecuencias relativas. El conjunto de estas cajas es $\mathcal{P}$. Podemos ver el mundo como ser adecuadamente descrita por el comportamiento de uno de los cuadros de la $\mathcal{P}$. Que tu objetivo es hacer conjeturas razonables como para que cuadro es, basado en lo que usted vea en las entradas que se han retirado de ella.


Como un ejemplo (que es práctico y realista, no un libro de texto de juguete), suponga que usted es el estudio de la tasa de $y$ de una reacción química, ya que varía con la temperatura. Supongamos que la teoría de la química predice que dentro de la gama de temperaturas entre el $0$ $100$ grados, la velocidad es proporcional a la temperatura.

Planea para el estudio de esta reacción en ambos $0$ $100$ grados, haciendo varias observaciones a cada temperatura. Por lo tanto, son una parte muy, muy grande el número de cajas. Vas a llenar cada caja con billetes. Hay una constante de la tasa por escrito en cada uno de ellos. Todas las entradas en cualquier cuadro de tener la misma tasa constante escrito en ellos. Diferentes cuadros de utilizar diferentes constantes de velocidad.

El uso de la constante de velocidad escrito sobre cualquier billete, también anote la tasa en $0$ y la tasa en $100$ grados: llamar a estos $y_0$$y_{100}$. Pero esto aún no es suficiente para un buen modelo. Los químicos también sabemos que ninguna sustancia es pura, la cantidad no es exactamente medido, y otras formas de observación de la variabilidad de ocurrir. El modelo de estos "errores", que hacen muy, muy muchas copias de tus entradas. En cada copia de cambiar los valores de $y_0$$y_{100}$. En la mayoría de ellos puede cambiar sólo un poco. En muy pocos, puede cambiar mucho. Usted escriba los valores modificados a medida que el plan para observar a cada temperatura. Estas observaciones representan posibles observables de los resultados de su experimento. En el cuadro de ir cada conjunto de estas entradas: se trata de un modelo de probabilidad para lo que se puede observar para una determinada tasa constante.

Qué hacer observar es modelada por el dibujo de un billete de esa caja y con solo leer las observaciones escritas allí. No llegue a ver el subyacente (true) los valores de $y_0$ o $y_{100}$. No llegue a leer el (verdadero) la constante de velocidad. Esos no son otorgados por el experimento.

Cada modelo estadístico debe hacer algunas suposiciones acerca de las entradas en estos (hipotético) de las cajas. Por ejemplo, tenemos la esperanza de que cuando se modifican los valores de las $y_0$$y_{100}$, que lo hizo sin un aumento constante o constante disminución de uno (como un todo, dentro de la caja): que sería una forma de sesgo sistemático.

Dado que las observaciones por escrito de cada entrada son números, dan lugar a distribuciones de probabilidad. Las suposiciones sobre las cajas normalmente se expresan en términos de las propiedades de dichas distribuciones, tales como si se debe calcular el promedio de cero, ser simétricas, tienen una "curva de campana" forma, no están correlacionados, o lo que sea.


Eso es realmente todo lo que hay que hacer. Mucho en la forma en que una primitiva de doce tonos de la escala dio origen a todos los de la música clásica Occidental, una colección de entradas que contiene los cuadros es un concepto simple que puede ser utilizado en extremadamente ricas y complejas maneras. Puede modelar casi cualquier cosa, desde un tirón de la moneda a una biblioteca de vídeos, bases de datos de interacciones Web, mecánica cuántica conjuntos, y cualquier otra cosa que pueda ser observados y registrados.

3voto

Björn Puntos 457

La definición de una distribución como la asignación de probabilidades a cada posible evento de obras para la distribución discreta, pero se vuelve más difícil para distribuciones continuas, que, por ejemplo, cualquier número en la recta real podría ser el resultado. Muy a menudo cuando se habla acerca de las distribuciones, pensamos en ellos como habiendo fijado los parámetros tales como una distribución binomial tener dos parámetros: en primer lugar, el número de observaciones y en segundo lugar una probabilidad de $\pi$ de una única observación, siendo un evento.

Típico paramétrica de los modelos estadísticos para describir cómo el parámetro(s) de distribución dependen de ciertas cosas, como los factores (una variable que tiene valores discretos) y las covariables (variables continuas). Por ejemplo, si en una distribución normal, se supone que la media puede ser descrito por un número fijo (un "interceptar") y un número (un "coeficiente de regresión") veces el valor de una covariable, se puede obtener un modelo de regresión lineal con una distribución normal término de error. Para una distribución binomial, un modelo comúnmente utilizado ("regresión logística") es asumir que el logit de la probabilidad de $\pi$ de un evento ($\pi/(1-\pi)$) puede ser descrita por una ecuación de regresión como $\text{intercept}+\beta_1 \text{covariate}_1+\ldots$. Del mismo modo, para una distribución de Poisson de un modelo común es suponer esto para el logaritmo de la tasa parámetro ("regresión de Poisson").

3voto

001 Puntos 7736

Una distribución de probabilidad da toda la información acerca de cómo una cantidad aleatoria fluctúa. En la práctica normalmente no tenemos la completa distribución de probabilidad de nuestros cantidad de interés. Podemos saber o suponer algo sobre él sin saber o suponiendo que sabemos todo acerca de él. Por ejemplo, podemos asumir que una cierta cantidad se distribuye normalmente, pero no saben nada acerca de la media y la varianza. A continuación, tenemos una colección de candidatos para la distribución a elegir; en nuestro ejemplo, esto es todas las posibles distribuciones normales. Esta colección de distribuciones de las formas de un modelo estadístico. Hacemos uso de ella mediante la recopilación de datos y, a continuación, la restricción de nuestra clase de los candidatos, para que todos los candidatos restantes son consistentes con los datos en algún sentido apropiado.

2voto

Maz Puntos 1

Un modelo es especificado por un PDF, pero no es un PDF.

Distribución de probabilidad (PDF) es una función que asigna probabilidades a los números y su salida tiene que estar de acuerdo con los axiomas de la probabilidad, como Tim explicó.

Un modelo totalmente definido por una distribución de probabilidad, pero es más que eso. En la moneda de tirar ejemplo, nuestro modelo podría ser "moneda es justo" + "cada lanzamiento es independiente". Este modelo está especificado por un PDF que es una binomial con p=0.5.

Sin embargo, uno podría imaginar un modelo en el que los tiros no son independientes, en cuyo caso ya no es la descrita por el binomio PDF. Aún así, el modelo especificado por la distribución conjunta (en PDF) de todos los eventos $P(x_1, x_2, x_3, ...)$. El punto es, formalmente, un modelo siempre está especificado por la distribución conjunta sobre los acontecimientos.

Una distinción entre el modelo y el PDF es que un modelo puede ser interpretado como una hipótesis estadística. Por ejemplo, en moneda lanzando, podemos considerar el modelo en el que la moneda es justo (p=0.5), y que cada lanzamiento es independiente (binomial), y decir que esta es nuestra hipótesis, que queremos probar en contra de la competencia hipótesis.

Usted también puede tener los modelos de la competencia (por ejemplo, no sabemos $p$ y queremos calcular que $p$ es la mejor opción). No tiene sentido hablar de la competencia de los PDFs, porque son un objeto matemático.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X