5 votos

¿Intuición correcta? Desviación estándar y distancia en $n$ espacio dimensional.

Pregunta básica

¿Existe una explicación intuitiva de la desviación estándar en términos de distancia euclidiana en $n$ ¿espacio dimensional?

Versión más larga de la pregunta

Para comenzar un esbozo más detallado de mi pregunta, por simplicidad vamos a centrarnos en el caso simple de una variable aleatoria discreta que está uniformemente distribuida. En este caso, la varianza viene dada por la siguiente fórmula, que he sacado directamente de Wikipedia:

$$ \frac1{n}\sum_{i =1}^n (x_i - \mu)^2$$

donde $\mu$ es la media. La desviación estándar es entonces la raíz cuadrada de ésta. Ahora, no puedo dejar de notar que la raíz cuadrada de la suma devuelve la distancia euclidiana del vector $X = (x_1, x_2, \dots, x_n)$ al vector $\vec \mu = (\mu, \mu, \dots, \mu)$ . Es decir, la desviación estándar puede expresarse como:

$$ \frac1{\sqrt{n}}|X - \vec \mu |$$

Así que me pregunto, ¿hay alguna relación conceptual significativa entre esta distancia $|X - \vec \mu |$ y la desviación estándar o es sólo una coincidencia?

Aún más detalles...

He buscado muchas explicaciones sobre la desviación estándar y su prima la varianza. Aquí hay algunas que ya he visto, cada una más o menos a continuación de la anterior:

  • Elevamos los valores al cuadrado antes de sumarlos para eliminar el signo, que obviamente no es importante. Esta explicación es a menudo criticada por los estadísticos empedernidos, y en cierto modo entiendo por qué: no explica por qué la elevación al cuadrado supera a la toma del valor absoluto.
  • Elevamos los valores al cuadrado para que paguemos un precio mayor por las desviaciones mayores. Esto explica por qué la elevación al cuadrado supera a la toma de valores absolutos. Pero ¿por qué no elevar a la potencia de $4$ o $6$ ¿o cualquier otra potencia par antes de la suma? ¿Qué tiene de especial $2$ ?
  • Lo que tiene de especial $2$ es que es el segundo momento de interticidad, mientras que la media es el primer momento, así que mecánicamente tiene sentido. Yo no sigo esto. Mi intuición está totalmente de acuerdo con la media: el punto en el que, si pongo el dedo, las pesas de ambos lados se equilibran. Pero el segundo momento me resulta más difícil de imaginar físicamente así.

Tenga en cuenta que esta es una pregunta sobre intuición . Comprendo" la fórmula matemática a un nivel superficial: qué significan todos sus términos, cómo calcularla dado un conjunto de datos. Pero no me siento cómodo con mi comprensión de por qué esta fórmula es "la mejor" para utilizar en muchas aplicaciones, por ejemplo, el método de mínimos cuadrados para ajustar datos. Estoy particularmente confundido en cuanto a por qué cuadrando se elige en lugar de elevar a alguna otra potencia par, por ejemplo $9234324$ .

Y aquí es donde mi intuición interviene e intenta dar una explicación que se remonta al teorema fundamental de Pitágoras: la distancia euclidiana. Este es mi proceso de pensamiento: "El número $2$ es especial. Es el poder único que hace que la distancia euclidiana funcione. Así que tal vez también es el único número que hace que la varianza funcione". Pero entonces, ¿por qué el factor multiplicador de $\frac1{\sqrt{n}}$ ? ¿Se trata simplemente de: tragárselo y aceptar la definición, o se puede resolver esta intuición de alguna manera?

5voto

user87400 Puntos 120

Ciertamente, existe una "relación conceptual" muy clara entre la desviación estándar y la distancia euclidiana: Si tratamos toda la muestra disponible (la $x_i$ ') como un vector, entonces la distancia euclidiana es una medida de cuánto se desvía este vector del vector que contiene el valor medio, que es "el centro" de la población.

Pero la desviación estándar intenta medir cuánto una única observación no toda la muestra, se desvía "en promedio" del valor medio. Ah, entonces, ¿por qué dividimos por $\sqrt {n}$ y no por $n$ ?

Esto queda claro si consideramos un vector $\mathbf x = (x,x,x,...x)$ Entonces, la distancia euclidiana se convierte en

$$\sqrt {\sum_{i =1}^n (x_i - \mu)^2}=\sqrt n |x-μ|$$

Por lo tanto, debido a la raíz cuadrada, la distancia euclidiana no es linealmente aditiva, ya que pasamos de una dimensión, a $n$ dimensiones : no se multiplica por un factor de $n$ pero sólo por un factor de $\sqrt {n}$ . Por lo tanto, para recuperar la "distancia individual en promedio" tenemos que dividir por $\sqrt n$ .

0 votos

Gran explicación. Todavía me preocupa un poco lo de "por término medio". No estamos midiendo exactamente "cuánto se desvía una sola observación... en promedio" del valor medio". Si no, volveríamos a tomar el valor absoluto de las desviaciones, sumar y dividir por $n$ es decir $\frac1{n}\sum_{i =1}^n |x_i - \mu|$ . Aun así, es una buena explicación intuitiva, gracias por compartirla.

0 votos

...me parece que la desviación estándar quiere medir cuánto todo vector de la población se desvía de su media, y luego se normaliza para el número de elementos de manera que el caso especial de $(x, x, x, \dots, x)$ te devuelve exactamente la desviación media...

0 votos

@ColmBhadal Nosotros también hacemos eso, es decir, tomar la media de la desviación absoluta. Se llama, ejem, "desviación absoluta media". El uso de segundos momentos en lugar de las desviaciones absolutas, tiene muchos argumentos detrás, desde la conveniencia matemática, a las propiedades de las distribuciones estadísticas, a la conexión con la distancia euclidiana... tu segundo comentario promete.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X