6 votos

Estimación de las características de la distribución a partir de las características de múltiples muestras

Definición

Supongamos que $X \sim D(\mu, \sigma)$ , donde $D$ es una distribución 1D (que se genera a partir de $\mathbb{R}$ ) con media $\mu$ y stddev $\sigma$ . Si tomo una muestra $X$ (la variable aleatoria) $M\times N$ veces, recibiendo una matriz $A$ (con $M$ filas y $N$ columnas), y luego generar

  • un vector $V_\mu$ de $A$ reduciendo cada fila de $A$ a un solo valor calculando el media de esa fila, y

  • un vector $V_\sigma$ de $A$ reduciendo cada fila de $A$ a un solo valor calculando el desviación estándar sesgada de esa fila del media --> número único de $V_\sigma = \sqrt{\frac{1}{N}\sum_{i=0}^{N}(x_i - \overline{x})^2}$ ,

¿Cómo puedo estimar correctamente el $\mu$ y $\sigma$ de $V_\mu$ y $V_\sigma$ ? Está claro que la estimación de $\mu$ es sólo el media de $V_\mu$ Pero, ¿cómo puedo manejar el $\sigma$ ?

Sigma

He intentado experimentar, decidiendo que, para empezar, vamos a suponer que $D = \mathcal{N}$ y $X \sim \mathcal{N}(\mu=3, \sigma=5)$ . He generado $A$ , calculado imparcialidad $\sigma(A)$ y luego se redujo $A$ a $V_\sigma$ , a partir de la cual he calculado el media . Este es el resultado:

enter image description here

Obviamente, el resultado está sesgado, la estimación es inferior a la verdadera $\sigma$ la mayoría de las veces. Si en lugar de ello multiplico cada miembro de $V_\sigma$ por $\frac{N}{N-1}$ antes de calcular la media de $V_\sigma$ me sale:

enter image description here

que sobrepasa el verdadero $\sigma$ más a menudo que no, así que estoy realmente perdido aquí. También he probado a multiplicar $V_\sigma$ por $\frac{MN}{MN-1}$ en su lugar, pero esto da como resultado

enter image description here

que es ligeramente mejor que el original, pero sigue siendo muy tendencioso.

EDITAR : Gracias a Ryan por señalarme mi error, claro, se me olvidó hacer la raíz cuadrada del factor de corrección. Aún así, no tenía ni idea de que el $c_4$ También hay que tener en cuenta el factor de la seguridad. Multiplicando la media de $V_\sigma$ por $\sqrt{\frac{N}{N-1}}$ y también por $1/c_4(M)$ que he obtenido:

enter image description here

que es insesgada, pero con una distribución más uniforme (con una desviación estándar mayor).

Mu

La estimación media es buena, como se esperaba:

enter image description here

Pregunta

Después de todo lo que he mostrado, lo que me pregunto es lo siguiente:

  • Dado $D = \mathcal{N}$ ¿Qué son estas distribuciones que observo? Parecen normales, pero ¿no lo son? EDITAR Ahora sé que la distribución para media estimación, si restamos el verdadero $\mu$ es un $t$ distribución con $N-1$ grados de libertad.

  • RESUELTO POR COMPLETO Dado $D = \mathcal{N}$ ¿Cómo puedo corregir el $\sigma$ estimación de $V_\sigma$ ? EDITAR : contestado por Ryan, ver Sigma sección.

  • Dado $D = \mathcal{N}$ Después de corregir el $\sigma$ estimación, ¿está bien afirmar que $D$ es probablemente $\mathcal{N}(\mu, \sigma)$ ? Ciertamente, cuanto más grande $M$ y $N$ conseguir, más seguro puedo estar al afirmar tal hecho, ¿verdad? ¿Cuál es el procedimiento estadístico adecuado que debo ejecutar después de obtener mi estimación de $\mu$ y $\sigma$ ? Por ejemplo, según mi experimento, puedo ver que el $\mu$ estimación cae en $[2, 4]$ aproximadamente el 95% de las veces. EDITAR : Ahora sé que si genero el intervalo como $\overline{x} \pm 1.96 \cdot \sigma \cdot \sqrt{N}$ el intervalo contendrá $\mu$ El 95% de las veces. Pero ¿qué pasa con $\sigma$ ? Y cuando finalmente me decida por algunas estimaciones de intervalo de $\mu$ y $\sigma$ ¿Puede algo sobre $P(X > c), X \sim \mathcal{N}(...)$ ¿se dice?

  • ¿Puede resolverse este problema para el $D$ es decir, obtener $V_\mu$ y $V_\sigma$ de un grupo de muestras ( $M\times N$ para ser específicos) y concluir algo sobre la verdadera $\mu$ y $\sigma$ ?

4voto

smohyee Puntos 116

¡Bienvenido a CV!

(1) Distribución muestral de las estadísticas de la muestra

Dado $D = \mathcal{N}$ ¿Qué son estas distribuciones que observo? Parecen normales, pero ¿no lo son?

a) Media de la muestra $\bar{X}$

$\frac{\bar{x}-\mu}{S/\sqrt{n}}\sim t_{n-1}$ - t con $n-1$ grados de libertad.

b) Varianza de la muestra $S^2$

$\frac{(n-1)}{\sigma^2}S^2 \sim\chi^2_{n-1}$ distribución chi-cuadrado con $n-1$ grados de libertad (véase Distribución muestral de la varianza de la muestra )

c) Desviación estándar de la muestra $S$

$\sqrt{\frac{(n-1)}{\sigma^2}}S \sim\chi_{n-1}$ - distribución chi con $n-1$ grados de libertad. Esto se deduce del hecho de que si $X\sim \chi(n)$ entonces $X^2\sim \chi^2(n)$ (ver Wikipedia: Distribución de Chi )

(2) Estimación insesgada de la población $\sigma$

Dado $D = \mathcal{N}$ ¿Cómo puedo corregir el $\sigma$ estimación de $V_\sigma$ ?

La muestra desviación con La corrección de Bessel ( $\tfrac{n}{n-1}$ ) proporciona una estimación no sesgada de la población desviación . Dos razones por las que esa afirmación no te ayuda.

  1. Estás aplicando la corrección de Bessel $\frac{n}{n-1}$ a la desviación estándar de la muestra. De hecho, es conveniente multiplicar la desviación típica de la muestra por $\sqrt{\frac{n}{n-1}}$ para aplicar la corrección.
  2. Incluso así, no se obtendrá una estimación insesgada de la desviación estándar de la muestra. La varianza corregida es insesgada, pero la raíz cuadrada de ese valor no es una estimación insesgada de la desviación típica de la población. Véase Wikipedia y pregunta relacionada . En el caso de que $D = \mathcal{N}$ hay un factor de corrección ( $c_4(n)$ ) que puedes aplicar. Se discute en el artículo de la wikipedia enlazado arriba. Para el caso en que $n=10$ La corrección es la siguiente $c_4(10)= \left(\frac{128}{105}\sqrt{\frac{2}{\pi}}\right)\approx 0.9726592741$ .

En general, una estimación insesgada de la desviación estándar de la población donde $D = \mathcal{N}$ viene dada por $$\hat{\sigma}=\frac{1}{c_4(n)}\sqrt{\frac{\sum_{i=1}^N(x_i-\bar{x})^2}{N-1}}$$

Aquí hay un gráfico rápido para mostrar la diferencia en la desviación estándar estimada usando las dos correcciones en muestras de una distribución normal, así como el código Python para reproducir el gráfico.

enter image description here

from math import gamma
import seaborn as sns
import pandas as pd

SIGMA = 5
MU = 3
m = 10000
# calculate correction
def c4(n):
    return np.sqrt(2/(n-1)) * gamma(n/2) / gamma((n-1)/2)

# calculate statistics for various N
results_dict = {x:[] for x in ['N','correction','s']}
for N in range(3, 25):
    A = np.random.normal(loc=MU, scale=SIGMA, size=[m,N])
    df_i = pd.DataFrame()
    results_dict['N'] += [N]*m*3
    results_dict['correction'] += ['None']*m+['Bessel']*m+['Bessel + c4']*m
    results_dict['s'] += list(np.std(A, axis=1))
    results_dict['s'] += list(np.std(A, axis=1)* ((N/(N-1))**0.5) )
    results_dict['s'] += list(np.std(A, axis=1)* ((N/(N-1))**0.5) / c4(N))

# create dataframe
results_df = pd.DataFrame(results_dict)

# plot results
plt.figure(figsize=(8,6))
sns.pointplot(
    data=results_df,
    x='N',
    y='s',
    hue='correction',
    ci=None
)
plt.title("Comparison of statistics for estimating $\sigma$")
plt.axhline(5, c='k', linestyle='--', label= "$\sigma$")
plt.show()

(3) Intervalos de confianza - Normal

Dado $D = \mathcal{N}$ Después de corregir el $\sigma$ estimación, ¿está bien afirmar que $D$ es probablemente $\mathcal{N}(\mu, \sigma)$ ? Ciertamente, cuanto más grande $M$ y $N$ conseguir, más seguro puedo estar al afirmar tal hecho, ¿verdad? ¿Cuál es el procedimiento estadístico adecuado que debo ejecutar después de obtener mi estimación de $\mu$ y $\sigma$ ? Por ejemplo, según mi experimento, puedo ver que el $\mu$ estimación cae en $[2, 4]$ aproximadamente el 95% de las veces.

Por supuesto, no puedes decir que $D$ probablemente sea exactamente $\mathcal{N}(\bar{X}, S)$ pero se pueden construir intervalos de confianza para $\mu$ y $\sigma$ .

Como apunte, el estimador de máxima verosimilitud para la varianza es en realidad la versión no corregida $s^2=\frac{1}{N}\sum_{i=1}^N(X_i-\bar{X})^2$ (ver MLE sesgada ). Esto es así independientemente del hecho de que la estimación no corregida tiende a subestimar el valor real. Y si $S^2$ es la estimación MLE para $\sigma^2$ entonces $\sqrt{S^2}=S$ es la estimación MLE para $\sqrt{\sigma^2}=\sigma$ (ver Estimación por máxima verosimilitud ) También podemos ver, utilizando nuestra simulación, que la diferencia media al cuadrado entre nuestra estimación $S^2$ y la varianza de la población $\sigma^2$ es el más bajo para la estimación no corregida.

enter image description here

# Variance
results_df['s2'] = results_df['s']**2
# Variance error
results_df['s2_mse'] = (results_df['s2']-SIGMA**2)**2

plt.figure(figsize=(8,6))
sns.pointplot(
    data=results_df,
    x='N',
    y='s2_mse',
    hue='correction',
    ci=None
)
plt.ylabel("$(S^2-\sigma^2)^2$")
plt.title("Squared Error of statistics for estimating $\sigma^2$")
plt.axhline(5, c='k', linestyle='--', label= "$\sigma$")
plt.show()

Puede construir los siguientes intervalos de confianza para sus estadísticas muestrales.

a) Media de la población $\bar{X}$

A $(1-\alpha)%$ El intervalo de confianza para la media de la población es

$$\left( \bar{X}-\frac{S}{\sqrt{n}}t_{n-1,\alpha/2} \leq \mu \leq \bar{X}+\frac{S}{\sqrt{n}}t_{n-1,\alpha/2} \right)$$

ver: Intervalos de confianza con σ desconocido

b) Varianza de la población $\sigma^2$

A $(1-\alpha)%$ El intervalo de confianza para la varianza de la población es $$\left(\frac{(n-1)s^2}{\chi^2_{\alpha/2,n-1}} \leq \sigma^2 \leq \frac{(n-1)s^2}{\chi^2_{1-\alpha/2,n-1}} \right)$$

(ver Intervalos de confianza para las varianzas )

c) Desviación estándar de la población $\sigma$

A $(1-\alpha)%$ El intervalo de confianza para la desviación estándar de la población es $$\left(\sqrt{\frac{(n-1)s^2}{\chi^2_{\alpha/2,n-1}}} \leq \sigma^2 \leq \sqrt{\frac{(n-1)s^2}{\chi^2_{1-\alpha/2,n-1}}} \right)$$

Ver Intervalos de confianza para las varianzas de nuevo o esta pregunta relacionada

(4) Caso general

¿Puede resolverse este problema para el $D$ es decir, obtener $V_\mu$ y $V_\sigma$ de un grupo de muestras ( $M\times N$ para ser específicos) y concluir algo sobre la verdadera $\mu$ y $\sigma$ ?

La respuesta de @Ben parece la más relevante para esta pregunta. Un procedimiento similar que se puede aplicar en el caso general y evitar cualquier cálculo analítico es utilizar el bootstrap . Ciertamente se puede utilizar el procedimiento bootstrap para estimar la distribución de la media de la muestra, pero no estoy seguro de que se aplique a la estimación de la varianza de la muestra. No estoy encontrando mucha discusión específica sobre esta cuestión, pero esta tesis parece discutir el tema en profundidad. Evaluación del uso del procedimiento Bootstrap para estimar la varianza de la población

3voto

Aaron Puntos 36

Tu notación para este problema es problemática, así que voy a utilizar una notación diferente para lo mismo. Denotaré el vector de las medias de las submuestras como $\bar{\mathbf{x}} = (\bar{x}_1, ..., \bar{x}_M)$ y $\mathbf{s} = (s_1,...,s_M)$ . También observo que cada submuestra es de tamaño $N$ por lo que cada uno de los elementos de estos vectores utiliza $N$ puntos de datos.


Dado que los valores de su inicial $M \times N$ son valores IID con media $\mu$ y la desviación estándar $\sigma$ lo mejor que se puede hacer aquí es poner en común el $M$ subgrupos en una única muestra de tamaño $MN$ y utilizarlo para estimar los parámetros de la media y la desviación estándar. Si está dispuesto a utilizar los datos originales en su matriz, este problema es bastante sencillo: sólo tiene que calcular la media y la desviación estándar de la muestra y utilizar métodos de estimación estándar para los parámetros. Sin embargo, si se quiere partir particularmente de los vectores $\bar{\mathbf{x}}$ y $\mathbf{s}$ para los subgrupos, puede utilizar las reglas matemáticas para agrupar los momentos de los subgrupos con el fin de obtener la media general de la muestra y la desviación estándar de la muestra sin utilizar los valores de los datos subyacentes (véase más adelante cómo hacer esto en R ).

En el caso de que sus datos iniciales sean datos normales IID, la media muestral sigue una distribución normal y la desviación estándar de la muestra sigue una escala distribución de chi . Esto es cierto tanto para los momentos de la muestra de subgrupos como para los momentos de la muestra global. En el caso más general en el que no se asume la normalidad de los valores subyacentes (pero se asume una curtosis finita), se aplica el teorema del límite central y se obtienen distribuciones similares, aunque estas últimas pueden ajustarse para la curtosis (véase, por ejemplo aquí ).

Existen fórmulas de intervalos de confianza bien conocidas para los parámetros de la media y la desviación estándar verdaderas dadas la media y la desviación estándar de la muestra (y quizás también la curtosis de la muestra). Puede encontrar la derivación de los intervalos de confianza para la media y la varianza, además de alguna información relacionada con los momentos, en O'Neill (2014) . (Obsérvese que este documento en particular da un intervalo de confianza para la varianza/desviación estándar que tiene en cuenta la curtosis de la población, ya sea a través de un parámetro de curtosis conocido o de la curtosis de la muestra de los datos; otras fuentes dan una fórmula más sencilla que asume implícitamente la mesocurtosis de los datos subyacentes).


Cálculo de los momentos de la muestra conjunta a partir de los momentos de los subgrupos: El cálculo de los momentos de la muestra para conjuntos de datos agrupados compuestos por submuestras se ha automatizado en el sample.decomp en la función utilities paquete (ver documentación del paquete ). Esta función puede calcular los momentos muestrales agrupados a partir de los momentos de los subgrupos hasta el cuarto orden (es decir, hasta la curtosis muestral). A continuación, ofrecemos un ejemplo en el que utilizamos la función para calcular los momentos muestrales de la muestra agrupada para $M=6$ subgrupos, cada uno de ellos compuesto por $N=200$ puntos de datos normales estándar. Como puede ver en el código siguiente, introducimos en la función los tamaños de las muestras, las medias de las muestras y las desviaciones estándar de las muestras, y luego calculamos los momentos de la muestra combinada.

#Show sample statistics for the subgroups
library(utilities)
N      <- c(200, 200, 200, 200, 200, 200)
MEAN   <- c(0.0556434, 0.0153109, 0.0722623, 0.1211588, 0.0152080, 0.0801092)
SD     <- c(0.9977933, 0.9315480, 1.0310567, 1.0109557, 0.9731961, 0.9554002)

#Compute sample decomposition
sample.decomp(n = N, sample.mean = MEAN, sample.sd = SD, include.sd = TRUE)

              n sample.mean sample.sd sample.var
1           200  0.05564340 0.9977933  0.9955915
2           200  0.01531090 0.9315480  0.8677817
3           200  0.07226230 1.0310567  1.0630779
4           200  0.12115880 1.0109557  1.0220314
5           200  0.01520800 0.9731961  0.9471106
6           200  0.08010920 0.9554002  0.9127895
--pooled-- 1200  0.05994877 0.9825550  0.9654142

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X