4 votos

¿Qué significa el tamaño de la desviación estándar?

Selon Wikipedia (énfasis mío),

En estadística, la desviación estándar ... es una medida que se utiliza para cuantificar la cantidad de variación o dispersión de un conjunto de valores de datos. Una desviación estándar cercana a 0 indica que los puntos de datos tienden a estar muy cerca de la media (también llamada valor esperado) del conjunto, mientras que una desviación estándar alta indica que los puntos de datos están dispersos en un rango más amplio de valores.

El propósito de la desviación estándar (SD), entonces, es decirnos lo variado o uniforme (SD 0) los datos son.

Así que, dada una determinada SD, lo variado es ¿los datos? ¿Qué significa el tamaño de la desviación estándar?

Por favor, explique el significado de la SD interpretando un SD \= 1 ( M \= 0).

Si no puede interpretar el tamaño (la cantidad) de esta DS, ¿qué otra información necesitaría para poder interpretarla y cómo la interpretaría, dada esa información? Por favor, proporcione un ejemplo.

Si, por el contrario, la cantidad de la SD no puede ser calificado de esta manera, mi argumento es que no tiene sentido. Si no estás de acuerdo, por favor, explica el significado de la SD.


<em>A continuación se presentan versiones anteriores para dar contexto a las respuestas. Desgraciadamente, éstas no transmitían realmente lo que quería, y mi intento de preguntarlo en otro lugar se cerró. (No necesito que se respondan estas versiones ahora):</em>

<em>Primera revisión:</em>

¿Qué significa el tamaño de la desviación estándar?

Por ejemplo, si quiero estudiar el tamaño del cuerpo humano y encuentro que el tamaño del cuerpo humano adulto tiene una desviación estándar de 2 cm, probablemente inferiría que el tamaño del cuerpo humano adulto es muy uniforme, mientras que una desviación estándar de 2 cm en el tamaño de los ratones significaría que los ratones difieren sorprendentemente en su tamaño corporal.

Obviamente, el significado de la desviación estándar es su relación con la media, y una desviación estándar en torno a una décima parte de la media no es destacable (por ejemplo, para el CI: DE = 0,15 * M).

Pero, ¿qué se considera "pequeño" y qué "grande", cuando se trata de la relación entre la desviación estándar y la media? ¿Existen pautas similares a las que da Cohen para las correlaciones (una correlación de 0,5 es grande, 0,3 es moderada y 0,1 es pequeña)?


<em>Pregunta original:</em>

Siempre calculamos y comunicamos las medias y las desviaciones estándar. Pero, ¿qué significa realmente el tamaño de la varianza?

Por ejemplo, supongamos que observamos qué asiento ocupa la gente en una sala vacía. Si observamos que la mayoría de las personas se sientan cerca de la ventana con poca variación, podemos suponer que esto significa que la gente prefiere generalmente sentarse cerca de la ventana y que obtener una vista o suficiente luz es el principal factor de motivación para elegir un asiento. Si, por el contrario, observamos que, aunque la mayor proporción se sienta cerca de la ventanilla, hay una gran variación, ya que también se ocupan a menudo otros asientos (por ejemplo, muchos se sientan cerca de la puerta, otros se sientan cerca del dispensador de agua o de los periódicos), podemos suponer que, aunque muchas personas prefieren sentarse cerca de la ventanilla, parece que hay más factores que la luz o la vista que influyen en la elección de los asientos y en las diferentes preferencias de las personas.

¿A qué valores podemos decir que el comportamiento que hemos observado es muy variado (a diferentes personas les gusta sentarse en diferentes lugares)? ¿Y cuándo podemos deducir que el comportamiento es mayoritariamente uniforme (a todo el mundo le gusta sentarse junto a la ventana) y que la escasa variación que muestran nuestros datos es mayoritariamente resultado de efectos aleatorios o variables de confusión (suciedad en una silla, que el sol se haya movido y haya más sombra en la parte de atrás, etc.)?

¿Existen directrices para evaluar la magnitud de la varianza en los datos, similares a las directrices de Cohen para interpretar el tamaño del efecto (una correlación de 0,5 es grande, 0,3 es moderada y 0,1 es pequeña)?

Por ejemplo, si el 90% (o sólo el 30%) de las observaciones se sitúan a una desviación estándar de la media, ¿se trata de algo poco común o completamente anodino?

6voto

AdamSane Puntos 1825

Discusión de la nueva pregunta:

Por ejemplo, si quiero estudiar el tamaño del cuerpo humano y encuentro que el tamaño del cuerpo humano adulto tiene una desviación estándar de 2 cm, probablemente inferiría que el tamaño del cuerpo humano adulto es muy uniforme

Depende de con qué lo comparemos. ¿Cuál es el estándar de comparación que lo hace muy uniforme? Si lo comparas con la variabilidad de las longitudes de los cerrojos para un tipo concreto de cerrojo, eso podría ser enormemente variable.

mientras que una desviación estándar de 2 cm en el tamaño de los ratones significaría que los ratones difieren sorprendentemente en su tamaño corporal.

Por comparación con lo mismo en tu ejemplo de humanos más uniformes, ciertamente; cuando se trata de longitudes de cosas, que sólo pueden ser positivas, probablemente tenga más sentido comparar el coeficiente de variación (como señalo en mi respuesta original), que es lo mismo que comparar la sd con la media que sugieres aquí.

Obviamente, el significado de la desviación estándar es su relación con la media,

No, no siempre. En el caso de tallas de las cosas o importes de cosas (por ejemplo, el tonelaje de carbón, el volumen de dinero), eso suele tener sentido, pero en otros contextos no tiene sentido comparar con la media.

Incluso así, no son necesariamente comparables de una cosa a otra. No hay una norma aplicable a todas las cosas sobre lo variable que es algo antes de serlo.

y una desviación estándar en torno a una décima parte de la media no es destacable (por ejemplo, para el CI: DE = 0,15 * M).

¿Qué cosas estamos comparando aquí? ¿Las longitudes con los coeficientes de inteligencia? ¿Por qué tiene sentido comparar un conjunto de cosas con otro? Nótese que la elección de media 100 y sd 15 para un tipo de test de CI es totalmente arbitraria. No tienen unidades. Podría haber sido fácilmente media 0 sd 1 o media 0,5 y sd 0,1.

Pero, ¿qué se considera "pequeño" y qué "grande", cuando se trata de la relación entre la desviación estándar y la media?

Ya se ha cubierto en mi respuesta original, pero más elocuentemente cubierto en el comentario de whuber - no hay una norma, y hay no puede ser.

Algunos de mis puntos sobre Cohen siguen aplicándose a este caso (la sd relativa a la media está al menos libre de unidades); pero incluso con algo como, por ejemplo, la d de Cohen, un estándar adecuado en un contexto no es necesariamente adecuado en otro.


Respuestas a una versión anterior

Siempre calculamos y comunicamos las medias y las desviaciones estándar.

Bueno, tal vez muchas veces; no sé si siempre hazlo. Hay casos en los que no es tan relevante.

Pero, ¿qué significa realmente el tamaño de la varianza?

La desviación estándar es una especie de distancia media* de la media. La varianza es el cuadrado de la desviación estándar. La desviación estándar se mide en las mismas unidades que los datos; la varianza está en unidades al cuadrado.

*(RMS -- https://en.wikipedia.org/wiki/Root_mean_square )

Le dicen algo sobre lo "dispersos" que están los datos (o la distribución, en el caso de que esté calculando la sd o la varianza de una distribución).

Por ejemplo, supongamos que observamos qué asiento ocupa la gente en una sala vacía. Si observamos que la mayoría de la gente se sienta cerca de la ventana con poca variación,

No se trata exactamente de registrar "qué asiento", sino de registrar "la distancia a la ventana". (Saber que "la mayoría se sienta cerca de la ventanilla" no te dice necesariamente nada sobre la media ni sobre la variación respecto a la media. Lo que le dice es que la mediana distancia de la ventana debe ser pequeña).

podemos suponer que esto significa que la gente generalmente prefiere sentarse cerca de la ventana y que obtener una vista o suficiente luz es el principal factor de motivación para elegir un asiento.

Que la mediana sea pequeña no lo dice por sí mismo. Se puede deducir de otras consideraciones, pero puede haber todo tipo de razones para ello que no podemos discernir de ninguna manera a partir de los datos.

Si, por otro lado, observamos que, aunque la mayor proporción se sienta cerca de la ventana, hay una gran variación con otros asientos ocupados también con frecuencia (por ejemplo, muchos se sientan cerca de la puerta, otros se sientan cerca del dispensador de agua o de los periódicos), podríamos suponer que, aunque muchas personas prefieren sentarse cerca de la ventana, parece que hay más factores que la luz o la vista que influyen en la elección de los asientos y en las diferentes preferencias de las personas.

De nuevo, estás aportando información ajena a los datos; puede que se aplique o puede que no. Por lo que sabemos, la luz es mejor lejos de la ventana, porque el día está nublado o las persianas están cerradas.

¿A qué valores podemos decir que el comportamiento que hemos observado es muy variado (a diferentes personas les gusta sentarse en diferentes lugares)?

Lo que hace que una desviación estándar sea grande o pequeña no viene determinado por una norma externa, sino por consideraciones sobre el tema, y hasta cierto punto por lo que se hace con los datos, e incluso por factores personales.

Sin embargo, con las medidas positivas, como las distancias, a veces es relevante considerar la desviación estándar en relación con la media (el coeficiente de variación); sigue siendo arbitrario, pero las distribuciones con coeficientes de variación mucho menores que 1 (desviación estándar mucho menor que la media) son "diferentes" en algún sentido que aquellas en las que es mucho mayor que 1 (desviación estándar mucho mayor que la media, que a menudo tenderá a ser fuertemente sesgada a la derecha).

¿Y cuándo podemos deducir que el comportamiento es mayoritariamente uniforme (a todo el mundo le gusta sentarse en la ventana)

Hay que tener cuidado con el uso de la palabra "uniforme" en ese sentido, ya que es fácil que se malinterprete su significado (por ejemplo, si digo que la gente está "uniformemente sentada en la sala", eso significa casi lo contrario de lo que quiere decir). De forma más general, cuando se habla de estadística, se suele evitar el uso de términos de la jerga en su sentido corriente.

¿y la escasa variación que muestran nuestros datos es en su mayor parte resultado de efectos aleatorios o variables de confusión (suciedad en una silla, que el sol se haya movido y haya más sombra en la parte de atrás, etc.)?

No, de nuevo, estás aportando información externa a la cantidad estadística que estás discutiendo. La varianza no te dice nada de eso.

¿Existen directrices para evaluar la magnitud de la varianza en los datos, similares a las directrices de Cohen para interpretar el tamaño del efecto (una correlación de 0,5 es grande, 0,3 es moderada y 0,1 es pequeña)?

En general, no.

  1. La discusión de Cohen[1] sobre los tamaños del efecto es más matizada y situacional de lo que indicas; da una tabla de 8 valores diferentes de pequeño medio y grande dependiendo de qué tipo de cosa se esté discutiendo. Esos números que das se aplican a las diferencias de medias independientes (Cohen's d ).

  2. Los tamaños del efecto de Cohen están escalados para ser cantidades sin unidad. La desviación estándar y la varianza no lo son: si se cambian las unidades, ambas cambiarán.

  3. Los tamaños del efecto de Cohen están pensados para aplicarse en un ámbito de aplicación concreto (e incluso en ese caso considero que centrarse demasiado en esos estándares de lo que es pequeño, mediano y grande es algo arbitrario y algo más prescriptivo de lo que me gustaría). Son más o menos razonables para su área de aplicación prevista, pero pueden ser totalmente inadecuados en otras áreas (la física de alta energía, por ejemplo, requiere con frecuencia efectos que cubren muchos errores estándar, pero los equivalentes de Cohens tamaños de los efectos puede ser muchos órdenes de magnitud más de lo que se puede conseguir).

Por ejemplo, si el 90% (o sólo el 30%) de las observaciones se sitúan a una desviación estándar de la media, ¿se trata de algo poco común o completamente anodino?

Ah, fíjate ahora que has dejado de discutir el tamaño de la desviación estándar / varianza, y has empezado a discutir la proporción de observaciones dentro de una desviación estándar de la media, un concepto totalmente diferente. Muy A grandes rasgos, esto está más relacionado con los picos de la distribución.

Por ejemplo, sin cambiar la varianza en absoluto, puedo cambiar la proporción de una población dentro de 1 sd de la media con bastante facilidad. Si la población tiene un $t_3$ aproximadamente el 94% se encuentra dentro de 1 sd de la media, si tiene una distribución uniforme, aproximadamente el 58% se encuentra dentro de 1 sd de la media; y con una beta( $\frac18,\frac18$ ), es alrededor del 29%; esto puede ocurrir con todos ellos teniendo las mismas desviaciones estándar, o con cualquiera de ellos siendo más grande o más pequeño sin cambiar esos porcentajes -- no está realmente relacionado con la dispersión en absoluto, porque usted definió el intervalo en términos de desviación estándar.

[1]: Cohen J. (1992),
"Una cartilla de poder,"
Psychol Bull. , 112 (1), Jul: 155-9.

4voto

Dipstick Puntos 4869

Por La desigualdad de Chebyshev sabemos que la probabilidad de algún $x$ ser $k$ veces $\sigma$ de la media es como máximo $\frac{1}{k^2}$ :

$$ \Pr(|X-\mu|\geq k\sigma) \leq \frac{1}{k^2} $$

Sin embargo, haciendo algunas suposiciones de distribución se puede ser más preciso, por ejemplo, la aproximación normal conduce a Norma 68-95-99.7 . En general, utilizando cualquier función de distribución acumulativa puede elegir algún intervalo que abarque un determinado porcentaje de casos. Sin embargo, la elección de la amplitud del intervalo de confianza es una decisión subjetiva, como se explica en este hilo .

Ejemplo
El ejemplo más intuitivo que se me ocurre es inteligencia escala. La inteligencia es algo que no se puede medir directamente, no tenemos "unidades" directas de inteligencia (por cierto, los centímetros o los grados Celsius también son en cierto modo arbitrarios). Los test de inteligencia se puntúan de manera que tienen una media de 100 y una desviación estándar de 15. ¿Qué nos dice esto? Conociendo la media y la desviación típica podemos deducir fácilmente qué puntuaciones pueden considerarse "bajas", "medias" o "altas". Como "media" podemos clasificar las puntuaciones que obtienen la mayoría de las personas (digamos el 50%), las puntuaciones más altas se pueden clasificar como "por encima de la media", las puntuaciones poco comunes se pueden clasificar como "superiores", etc., lo que se traduce en la siguiente tabla.

Clasificación del test de CI de Wechsler (WAIS-III) 1997 Rango de CI ("desviación IQ")

IQ Classification
130 and above Very superior
120–129       Superior
110–119       High average
90–109        Average
80–89         Low average
70–79         Borderline
69 and below  Extremely low

(Fuente: https://en.wikipedia.org/wiki/IQ_classification )

Por lo tanto, la desviación estándar nos dice cuánto podemos suponer que los valores individuales se alejan de la media. Se puede pensar en $\sigma$ a partir de la distancia sin unidades de la media. Si pensamos en puntuaciones observables, por ejemplo las de los test de inteligencia, conocer las desviaciones estándar nos permite inferir fácilmente a qué distancia (cuántos $\sigma$ 's) algún valor se aleja de la media y así lo común o poco común que es. Es subjetivo el número de $\sigma$ se califican como "lejanos", pero esto se puede matizar fácilmente pensando en términos de probabilidad de observar valores situados a cierta distancia de la media.

Esto es evidente si se observa en qué consiste la varianza ( $\sigma^2$ ) es

$$ \operatorname{Var}(X) = \operatorname{E}\left[(X - \mu)^2 \right]. $$

...la distancia esperada (media) de $X$ 's de $\mu$ . Si se pregunta, aquí puede leer por qué es cuadrado .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X