24 votos

¿Qué son exactamente los momentos? ¿Cómo se obtienen?

Normalmente nos introducimos en los estimadores del método de los momentos "equiparando los momentos de la población a su contrapartida muestral" hasta que hayamos estimado todos los parámetros de la población; así, en el caso de una distribución normal, sólo necesitaríamos el primer y el segundo momento porque describen completamente esta distribución.

$E(X) = \mu \implies \sum_{i=1}^n X_i/n = \bar{X}$

$E(X^2) = \mu^2 + \sigma^2 \implies \sum_{i=1}^n X_i^2/n$

Y teóricamente podríamos calcular hasta $n$ momentos adicionales como:

$E(X^r) \implies \sum_{i=1}^nX_i^r /n$

¿Cómo puedo intuir lo que son realmente los momentos? Sé que existen como concepto en la física y en las matemáticas, pero no encuentro ninguno de ellos directamente aplicable, sobre todo porque no sé cómo hacer la abstracción del concepto de masa a un punto de datos. El término parece usarse de una manera específica en estadística, que difiere del uso en otras disciplinas.

¿Qué característica de mis datos determina cuántos ( $r$ ) momentos hay en general?

7 votos

El término significa lo mismo que en física, cuando se aplica a la distribución de la probabilidad. Véase aquí que tiene la ecuación $\mu_n=\int r^n\,\rho(r)\,dr$ , " donde $\rho$ es la distribución de la densidad de carga, masa o cualquier cantidad que se considere ". Cuando la "cosa que se considera" es la densidad de probabilidad, se tiene el momento correspondiente en la probabilidad. Son momentos brutos (momentos sobre el origen). En comparación... (ctd)

2 votos

Los momentos son características parametrizadas de la distribución de las variables aleatorias, como los cuantiles. Los momentos están parametrizados por los números naturales, y caracterizan completamente una distribución (véase función generadora de momentos ). Esto no excluye que para algunas distribuciones pueda haber una dependencia funcional perfecta entre los momentos, por lo que no siempre se requieren todos los momentos para caracterizar la distribución. (1/2)

0 votos

Momentos $\geq 3$ son funcionalmente dependientes de las dos primeras para la distribución normal, por lo que las dos primeras bastan para caracterizar la distribución, incluyendo la media y la varianza. (2/2)

19voto

jayk Puntos 1065

Hace mucho tiempo que no tomo clases de física, así que avísenme si algo de esto es incorrecto.

Descripción general de los momentos con análogos físicos

Toma una variable aleatoria, $X$ . El $n$ -momento de $X$ alrededor de $c$ es: $$m_n(c)=E[(X-c)^n]$$ Esto corresponde exactamente al sentido físico de un momento. Imagine $X$ como una colección de puntos a lo largo de la línea real con la densidad dada por el pdf. Coloca un punto de apoyo bajo esta línea en $c$ y empezar a calcular los momentos relativos a ese fulcro, y los cálculos corresponderán exactamente a los momentos estadísticos.

La mayoría de las veces, el $n$ -momento de $X$ se refiere al momento en torno a 0 (momentos en los que el fulcro se sitúa en 0): $$m_n=E[X^n]$$ El $n$ -en central momento de $X$ es: $$\hat m_n=m_n(m_1) =E[(X-m_1)^n]$$ Esto corresponde a momentos en los que el punto de apoyo se sitúa en el centro de masa, por lo que la distribución está equilibrada. Permite interpretar los momentos más fácilmente, como veremos a continuación. El primer momento central siempre será cero, porque la distribución está equilibrada.

El $n$ -en estandarizado momento de $X$ es: $$\tilde m_n = \dfrac{\hat m_n}{\left(\sqrt{\hat m_2}\right)^n}=\dfrac{E[(X-m_1)^n]} {\left(\sqrt{E[(X-m_1)^2]}\right)^n}$$ De nuevo, esto escala los momentos por la dispersión de la distribución, lo que permite una interpretación más fácil específicamente de la curtosis. El primer momento estandarizado siempre será cero, el segundo siempre será uno. Esto corresponde al momento de la puntuación estándar (puntuación z) de una variable. No tengo un gran análogo físico para este concepto.

Momentos más utilizados

Para cualquier distribución hay potencialmente un número infinito de momentos. Un número suficiente de momentos casi siempre caracterizará completamente la distribución (derivar las condiciones necesarias para que esto sea cierto es una parte del problema del momento ). En estadística se habla mucho de los cuatro momentos:

  1. Media - el primer momento (centrado en cero). Es el centro de masa de la distribución, o bien es proporcional al momento de torsión de la distribución respecto a un punto de apoyo en 0.
  2. Desviación - el segundo momento central. Se interpreta como una representación del grado en que la distribución de $X$ se extiende. Corresponde al momento de inercia de una distribución equilibrada sobre su punto de apoyo.
  3. Skewness - el tercer momento central (a veces normalizado). Medida del sesgo de una distribución en una u otra dirección. En relación con una distribución normal (que no tiene sesgo), las distribuciones con sesgo positivo tienen una baja probabilidad de resultados extremadamente altos, y las distribuciones con sesgo negativo tienen una pequeña probabilidad de resultados extremadamente bajos. Los análogos físicos son difíciles, pero a grandes rasgos mide la asimetría de una distribución. Como ejemplo, la figura siguiente es tomado de Wikipedia . Skewness, taken from Wikipedia
  4. Kurtosis - el 4º momento estandarizado, normalmente el exceso de Kurtosis, el 4º momento estandarizado menos tres. La curtosis mide el grado en que $X$ pone más probabilidad en el centro de la distribución en relación con las colas. Una kurtosis más alta significa que las desviaciones más grandes de la media son menos frecuentes y que las desviaciones más pequeñas son más frecuentes. A menudo se interpreta en relación con la distribución normal, que tiene un 4º momento estandarizado de 3, por lo tanto un exceso de Kurtosis de 0. Aquí un análogo físico es aún más difícil, pero en la figura siguiente, tomado de Wikipedia las distribuciones con picos más altos tienen mayor Kurtosis. Kurtosis, also from WIkipedia

Rara vez se habla de los momentos más allá de la kurtosis, precisamente porque se intuyen muy poco. Esto es similar a que los físicos se detengan después del segundo momento.

7voto

Mark L. Stone Puntos 2037

Este es un hilo un poco viejo, pero quiero corregir un error en el comentario de Fg Nu que escribió "Los momentos están parametrizados por los números naturales, y caracterizan completamente una distribución".

Los momentos NO caracterizan completamente una distribución. En concreto, el conocimiento de todos los infinitos momentos, aunque existan, no determina necesariamente de forma única la distribución.

Según mi libro favorito de probabilidad, Feller "An Introduction to Probability Theory and Its Applications Vol II" (ver mi respuesta en Ejemplos reales de distribuciones comunes ), sección VII.3 ejemplo en las páginas 227-228, la Lognormal no está determinada por sus momentos, lo que significa que hay otras distribuciones que tienen todo el número infinito de momentos iguales a la Lognormal, pero diferentes funciones de distribución. Como es ampliamente conocido, la Función Generadora de Momentos no existe para la Lognormal, ni puede existir para estas otras distribuciones que poseen los mismos momentos.

Como se indica en la página 228, una variable aleatoria esencialmente distinta de cero $X$ está determinada por sus momentos si todos ellos existen y

$$\sum_{n=1}^{\infty} (\mathbb{E}[X^{2n}])^{-1/(2n)}$$

diverge. Obsérvese que no se trata de un "si y sólo si". Esta condición no se cumple para la Lognormal, y de hecho no está determinada por sus momentos.

Por otra parte, las distribuciones (variables aleatorias) que comparten todos los momentos infinitos, sólo pueden diferir en cierta medida, debido a las desigualdades que se pueden derivar de sus momentos.

0 votos

Esto se simplifica considerablemente cuando la distribución está acotada, en cuyo caso los momentos siempre determinan la distribución completamente (de forma única).

0 votos

@Alex Eso es una consecuencia inmediata del resultado citado en Feller.

0 votos

No es del todo correcto decir que la función generadora de momentos no existe para la lognormal. Los teoremas más útiles sobre las FGM suponen que existen en un intervalo abierto que contiene el cero, y en sentido estricto no existen. Pero sí existe en un rayo que emana de cero, y eso también da información útil.

2voto

Mike Anderson Puntos 131

Un corolario de las observaciones de Glen_b es que el primer momento, la media, corresponde al centro de gravedad de un objeto físico, y el segundo momento alrededor de la media, la varianza, corresponde a su momento de inercia. A partir de ahí, ya estás solo.

3 votos

Me gusta la relación del primer momento y la media...pero el segundo momento no es la varianza...la varianza es la centrado segundo momento... $E[x^2] = \int x^2f(x)dx$ $var[x]=E[(x-E[x])^2] = \int (x-E[x])^2f(x)dx$ .

0voto

David Locke Puntos 1

Un árbol binomial tiene dos ramas, cada una con una probabilidad de 0,5. En realidad, p=0,5, y q=1-0,5=0,5. Esto genera una distribución normal con una masa de probabilidad uniformemente distribuida.

En realidad, tenemos que suponer que cada nivel del árbol está completo. Cuando dividimos los datos en intervalos, obtenemos un número real de la división, pero redondeamos. Bueno, eso es un nivel que está incompleto, por lo que no terminamos con un histograma que se aproxima a la normal.

Cambia las probabilidades de ramificación a p=0,9999 y q=0,0001 y eso nos da una normal sesgada. La masa de probabilidad se desplazó. Eso explica la asimetría.

Tener niveles incompletos o bins menores a 2^n generan árboles binomiales con áreas que no tienen masa de probabilidad. Esto nos da la curtosis.


Respuesta al comentario:

Cuando hablaba de determinar el número de contenedores, redondea al siguiente número entero.

Las máquinas Quincunx lanzan bolas que llegan a aproximarse a la distribución normal a través de la binomial. Una máquina de este tipo hace varias suposiciones 1) el número de casillas es finito, 2) el árbol subyacente es binario y 3) las probabilidades son fijas. La máquina Quincunx, situada en el Museo de Matemáticas de Nueva York, permite al usuario cambiar dinámicamente las probabilidades. Las probabilidades pueden cambiar en cualquier momento, incluso antes de que la capa actual haya terminado. De ahí la idea de que los recipientes no se llenan.

A diferencia de lo que dije en mi respuesta original, cuando hay un vacío en el árbol, la distribución muestra curtosis.

Lo veo desde la perspectiva de los sistemas generativos. Utilizo un triángulo para resumir los árboles de decisión. Cuando se toma una decisión novedosa, se añaden más bins en la base del triángulo, y en términos de la distribución, en las colas. Recortar los subárboles del árbol dejaría vacíos en la masa de probabilidad de la distribución.

Sólo he respondido para darte una idea intuitiva. ¿Las etiquetas? He usado Excel y he jugado con las probabilidades en la binomial y he generado los sesgos esperados. No lo he hecho con la curtosis, no ayuda que se nos obligue a pensar en la masa de probabilidad como algo estático mientras se usa un lenguaje que sugiere movimiento. Los datos o bolas subyacentes provocan la curtosis. Luego, la analizamos de forma variada y la atribuimos a términos descriptivos de la forma como centro, hombro y cola. Lo único con lo que tenemos que trabajar son los bins. Los bins tienen una vida dinámica, aunque los datos no puedan hacerlo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X