8 votos

Definición de suplente (?) de la varianza de la muestra

La varianza de una muestra puede ser definida como $$s^2 = \frac{1}{2}\frac{1}{n(n-1)}\sum_{i}\sum_{j\ne i}\left(x_i - x_j\right)^2$$

Aparte de que el factor de $1/2$, esto puede ser parafraseado como verbalmente

La varianza es el promedio de los cuadrados de las distancias entre pares de puntos de datos distinto

Matemáticamente, esto es equivalente a la "costumbre" de la definición de la varianza $s^2 = \frac{1}{n-1}\sum \left(x_i -\bar{x} \right)^2$. Conceptualmente, sin embargo, parece (a mí) bastante diferentes, en dos aspectos:

  1. Esta definición no hace referencia al valor de la media $\bar{x}$; no somos de la medición de la distancia entre puntos de la media, sino que tan lejos están los puntos de uno a otro.
  2. El factor de $n-1$ en el denominador, el cual es bien conocido por ser una fuente de confusión para los estudiantes (ver, por ejemplo, la explicación Intuitiva de dividir por $n-1$ a la hora de calcular la desviación estándar?) -- aparece de forma natural porque no se $n(n-1)$ pares ordenados de datos distintos puntos de $(x_i, x_j), i\ne j$. No hay necesidad de que sea mano saludando justificaciones acerca de "amortiguación" de la varianza de la muestra, o para los cálculos complicados de estimador del sesgo.

De nuevo, sólo para ser claro, yo entiendo por qué la definición estándar de $s^2$ incluye un denominador de $n-1$, y entiendo que el doble de la suma de la definición anterior es matemáticamente equivalente a la de definición estándar. Lo que me gustaría saber:

Hay contextos (pedagógico o de otra manera) en el que la alternativa de la definición de la varianza (como un doble suma de los pares de puntos de datos) es más comúnmente conocido? Hay libros de texto, por ejemplo, que tome esto como la principal definición?

6voto

Bill Puntos 16

El uso de la simetría, su doble de la suma puede ser escrito como $$ s^2 = \text{ave}_{i < j} f(x_i, x_j) $$ con $f(x, y) := \frac{1}{2} (x - y)^2$ y, como tal, es un U-estadística de grado 2 con kernel $f$ para la estimación del parámetro $\theta = E(f(X, Y)) = \ldots = \text{Var}(X)$, $X$, $Y$ iid. En realidad, es uno de los más destacados, no trivial ejemplos de un U-estadística y brilla en consecuencia teórica de las matemáticas estadísticas de clases.

Ser un U-estadística es bueno porque por ejemplo,

  • un U-estadística es automáticamente "óptimo" en el sentido de ser U-nbiased con varianza mínima (bye-bye Rao-Blackwell teorema) y

  • hay una (más o menos explícita) fórmula para su varianza y, por tanto, su error estándar.

Sin embargo, esta representación alternativa de la varianza de la muestra $s^2$ es raramente usado en la práctica aunque, como usted ha mencionado, parece destacar un aspecto diferente de la variación de (el típico"el cuadrado de la diferencia entre los dos al azar picks" en vez de "típica de la diferencia cuadrática entre random pick y media").

El U-estadísticas de la representación de $s^2$ siempre me recuerda de Gini impureza utilizado en el árbol de decisión de aprendizaje donde los que a menudo desempeña el papel de la varianza para categórica respuestas. Para una variable aleatoria discreta $Z$ con niveles de $z_1, \dots, z_m$$\text{Pr}(Z = z_j) = p_j$, se define como $$ I(Z) = 1 - \sum_{j = 1}^m p_i^2 = \sum_{i}\sum_{j \ne i} p_i p_j, $$ y, como tal, es la probabilidad de que al azar dos selecciones no son los mismos (de nuevo, algo así como una diferencia típica entre al azar dos picks).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X