Por favor, demuestre que si tenemos dos variables (con igual tamaño de muestra) $X$ y $Y$ y el desviación en $X$ es mayor que en $Y$ entonces el suma de diferencias al cuadrado (es decir, las distancias euclidianas al cuadrado) entre puntos de datos dentro de $X$ también es mayor que el de $Y$ .
Respuesta
¿Demasiados anuncios?Sólo para dar una respuesta "oficial", para complementar las soluciones esbozadas en los comentarios, observe
-
Ninguno de $\operatorname{Var} ((X_i))$ , $\operatorname{Var} ((Y_i))$ , $\sum_{i,j}(X_i-X_j)^2$ o $\sum_{i,j} (Y_i-Y_j)^2$ se modifican desplazando todos los $X_i$ uniformemente a $X_i-\mu$ para alguna constante $\mu$ o cambiar todo $Y_i$ a $Y_i-\nu$ para alguna constante $\nu$ . Por lo tanto, podemos suponer que estos cambios se han realizado para hacer $\sum X_i = \sum Y_i = 0$ De ahí que $\operatorname{Var}((X_i)) = \sum X_i^2$ y $\operatorname{Var}((Y_i)) = \sum Y_i^2$ .
-
Tras eliminar los factores comunes de cada lado y utilizar (1), la pregunta pide que se demuestre que $\sum X_i^2 \ge \sum Y_i^2$ implica $\sum_{i,j} (X_i-X_j)^2 \ge \sum_{i,j} (Y_i-Y_j)^2$ .
-
La simple expansión de los cuadrados y el reordenamiento de las sumas dan como resultado $$\sum_{i,j}(X_i-X_j)^2 = 2\sum X_i^2 - 2\left(\sum X_i\right)\left(\sum X_j\right) = 2\sum X_i^2 = 2\operatorname{Var}((X_i))$$ con un resultado similar para el $Y$ 's.
La prueba es inmediata.
1 votos
Por favor, aclare: Cuando dice desviación ¿quieres decir varianza de la muestra ? Cuando usted dice suma de diferencias al cuadrado ¿quieres decir $\sum_{i,j} (x_i - x_j)^2$ ?
9 votos
Asumiendo lo anterior: $$ \sum_{i,j} (x_i - x_j)^2 = \sum_{i \neq j} ((x_i - \bar{x}) - (x_j - \bar{x}))^2 = 2 n \sum_{i=1}^n (x_i - \bar{x})^2 \> , $$ mediante la contabilización cuidadosa de los elementos en el término cruzado. Me imagino que se pueden rellenar las (pequeñas lagunas). El resultado se obtiene entonces de forma trivial.
0 votos
Para un análisis más extenso de esta relación y sus aplicaciones, visite es.wikipedia.org/wiki/Variograma#Variograma_Empírico .
2 votos
También hay una manera de hacer esto "sin" ningún cálculo considerando el hecho de que si $X_1$ y $X_2$ son iid de $F$ (con una varianza bien definida), entonces $\mathbb E (X_1 - X_2)^2 = 2 \mathrm{Var}(X_1)$ . Sin embargo, requiere una comprensión un poco más firme de los conceptos de probabilidad.
1 votos
Para una pregunta relacionada, utilicé una visualización de lo que sucede aquí en una respuesta en stats.stackexchange.com/a/18200 : las diferencias al cuadrado son áreas de los cuadrados.
1 votos
@whuber: Muy bien. De alguna manera me había perdido esta respuesta tuya por el camino.
0 votos
@cardinal ¿por qué lo anterior es cierto? no entiendo por qué $\sum_{i \neq j} ((x_i - \bar{x}) - (x_j - \bar{x}))^2 = 2n \sum_{i=1}^n (x_i - \bar{x})^2$