7 votos

¿Varianza solamente funciona en datos normalmente distribuidos (como una medida de dispersión)?

Se dice en wikipedia

El papel de la distribución normal en el teorema del límite central es en parte responsable de la prevalencia de la variación en la probabilidad y estadísticas.

Yo entiendo esto como
Cuando hacemos uso de la varianza/SD como una medida de la dispersión, en realidad estamos buscando la "ampliación" parámetros de una distribución normal, ya que un random variable es probable que sigue aproximadamente una distribución normal para CLT.

En el caso de que los datos no siguen una distribución normal, es la varianza/SD todavía una medida razonable de la dispersión?

Decir que los datos se distribuye uniformemente, el promedio de la desviación absoluta parece ser una mejor medida de la dispersión de la varianza, porque puede ser visto como la "ampliación" parámetros para la distribución uniforme, estoy en lo cierto?


Actualización
Quiero decir, supongamos que se tienen dos conjuntos de muestras, una es {1,1,1,-1,-1,-1} y el otro proviene de una distribución normal $N(0,1)$, sus varianzas son tanto 1. Los dos conjuntos serán considerados como de el mismo grado de dispersión si utilizamos la varianza como medida.

Pero se siente como que estamos con fuerza el tratamiento de ellos tanto como de Gauss, a continuación, trabajar fuera de los parámetros de la distribución y decir "sí, son iguales en términos de la dispersión".

7voto

Jay Querido Puntos 589

Tu pregunta es un poco vago, pero no, la varianza no se utiliza debido a su asociación con la distribución normal. La mayoría de las distribuciones tienen, al menos, una media y una varianza. Algunos no tienen una varianza. Algunos pueden tener o no tener una variación. Algunos no tienen la media y por lo tanto no tienen una varianza.

Sólo para la aclaración de su lado, si una distribución tiene una media, a continuación,$\bar{x}\approx\mu,$, pero si no lo hace, a continuación,$\bar{x}\approx\text{nothing}$. Que es el que gravita la nada y cualquier cálculo que flota alrededor de la recta numérica real. No significa nada. Lo mismo es cierto si usted calcular la desviación estándar para una distribución que no tiene uno. No tiene ningún sentido.

La varianza es una propiedad de una distribución. Estás en lo correcto en que puede ser utilizado para aumentar el problema, pero es más profundo que eso. En algunos marcos teóricos, es una medida de nuestra ignorancia, o más precisamente, la incertidumbre. En otros, se mide qué tan grande de un la probabilidad de efectos puede tener sobre los resultados.

Aunque la varianza es una conceptualización de la dispersión, es una conceptualización incompleta. Tanto el sesgo y la curtosis explicar cómo la dispersión opera en un problema.

Para muchos de los problemas en una hipótesis nula marco de pensamiento, el Teorema del Límite Central hace que la discusión de los problemas más simples y así no me duele que existe un vínculo entre la distribución normal, con su muy bien definido en la distribución de las propiedades, y el uso de la desviación estándar. Sin embargo, esto es más cierto para los problemas simples de las complejas. Esto también es cierto para Bayesiano métodos que no utilizan una hipótesis nula y que no dependen de la distribución muestral del estimador.

El promedio de la desviación absoluta es una herramienta valiosa en el parámetro libre y la distribución gratuita de métodos, pero menos valiosos para la distribución uniforme. Si en realidad tenía un almacén de distribución uniforme, entonces la media y la varianza son conocidos.

Permítanme darles una distribución uniforme problema que no puede ser tan simple como usted piensa. Considere la posibilidad de que un enemigo nuevo tanque de batalla ha aparecido en el campo de batalla. No sé cuántos se han, digamos que existían. Desea estimar el número total de tanques.

Los tanques tienen un número de serie en sus motores, o antes de que alguien se dio cuenta de esto. La probabilidad de capturar cualquier específicos número de serie es $1/N$ donde $N$ es el total de los depósitos. Por supuesto, usted no sabe $N$, por lo que este es un problema interesante. Usted necesita saber N. sólo Se puede ver la distribución de los números de serie y no sé si el mayor número de capturados es también el último tanque construido. Probablemente no lo es.

En ese caso, la media y la desviación estándar de proporcionar las herramientas más poderosas para resolver el problema, a pesar de la intuición de que la desviación estándar es un mal estimador.

Será cierto que es un mal estimador para ciertos problemas, pero hay que aprender de ellos sobre una base de caso por caso.

Herramientas estadísticas son elegidos en base a las necesidades, las reglas de las matemáticas y los trade-offs entre el mundo real de los costos y limitaciones y a las exigencias del problema. A veces, es la varianza, pero a veces no lo es. La mejor cosa a hacer es aprender por qué las reglas son diseñadas de la manera que son y que es demasiado largo para una publicación aquí.

Yo recomendaría un buen practicantes libro sobre estadísticas no paramétricas y si usted ha tenido cálculo de una buena introductorio practicantes libro sobre métodos Bayesianos.

4voto

AdamSane Puntos 1825
  1. En primer lugar, debemos tener claro la distinción entre una medida de la variabilidad de una distribución (como su desviación estándar o su desviación media o su rango) y la mejor manera de estimar que la medida a partir de una muestra. Por ejemplo, si su distribución es uniforme, el mejor ejemplo de estimación de la media de la población es la desviación de la media no es la media de la muestra desviación -- en realidad una fracción de la gama es mucho mejor.

    (Por supuesto, si usted realmente no sabe lo que la distribución puede tratar con tales consideraciones no pueden ser de mucha ayuda.)

  2. Así que ¿por qué medir la variabilidad de la población por la varianza?

    La varianza (y a través de ella, desviación estándar) tiene una forma muy particular de propiedad que no es compartida por otras medidas de variabilidad, que es una forma muy simple de la varianza de la suma (y, más generalmente, de las combinaciones lineales) de las variables.

    Cuando usted tiene la independencia, la forma simple se vuelve mucho más sencillo todavía.

    Específicamente, bajo la independencia, $\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y)$ y debido a que la desviación estándar es también bastante simple en su forma. El no a la independencia no es un caso mucho más complicado.

    Otras medidas de variabilidad no tienen tal propiedad simple.

    Esto hace que la varianza (y por lo tanto la desviación estándar) muy atractivas formas de medir la variabilidad de las distribuciones.

  3. Una segunda razón es que la media (que es a menudo visto como un lugar natural de la medida) es la ubicación que minimice el cuadrado de error de la función de pérdida-y cuando se minimice, se puede obtener la varianza. Muchas personas ven una plaza de error de la pérdida de la función natural o útil, y en ese caso la varianza a su vez se convierte en una medida natural de variación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X