12 votos

¿Por qué Son las Medidas de Dispersión Menos Intuitivo Que la Centralidad?

Parece que hay algo en nuestra comprensión humana que crea dificultades en la comprensión intuitiva de la idea de la varianza. En un sentido estricto, la respuesta es inmediata: el cuadrado nos lanza fuera de nuestra comprensión reflexiva. Pero, es la variación que presenta problemas, o es que la idea de la propagación en los datos? Buscamos refugio en el rango, o simplemente indicando el mínimo y el máximo, pero estamos de evitar la dificultad real? En la media (o mediana) nos encontramos con el centro, el resumen... una simplificación; la variación de los spreads de las cosas y los hace sentir incómodos. El hombre primitivo, sin duda haría uso de la media en la caza de animales por triangulación a la oración, pero supongo que fue mucho más tarde que nos vimos en la necesidad de cuantificar la propagación de las cosas. De hecho, el término de la varianza fue primero introducido por Ronald Fisher tan recientemente como en 1918 en el documento "la Correlación Entre Parientes en la Suposición de la Herencia Mendeliana."

La mayoría de las personas que siguen las noticias hayan escuchado la historia de Larry Summers " lamentable discurso acerca de las matemáticas aptitudes por medio de género, lo que posiblemente se relaciona con su salida de la universidad de Harvard. En pocas palabras, él sugirió una mayor varianza en la distribución de las matemáticas en la competencia entre los machos como en comparación con las mujeres, a pesar de que ambos géneros disfrutado de la misma media. Independientemente de la conveniencia o implicaciones políticas, esto parece ser motivada en la literatura científica.

Lo que es más importante, tal vez la comprensión de los problemas como el cambio climático - por favor, perdóname por traer a colación temas que podrían conducir a completamente fuera de lugar para el debate - por la población general podría ser ayudado por la mejora de la familiaridad con la idea de la varianza.

Se complica cuando tratamos de captar la covarianza, como se muestra en este post, con un gran y colorido respuesta por @whuber aquí.

Puede ser tentador para despedir a esta pregunta es demasiado general, pero está claro que estamos hablando de él de forma indirecta, como en este post, donde las matemáticas son triviales, pero el concepto sigue siendo difícil de alcanzar, lo que desmonta una forma más cómoda de aceptación de la gama como contraposición a la más matizada idea de la varianza.

En una carta de Fisher a la E. B. Ford, en referencia a la polémica sobre su sospecha en los experimentos Mendelianos, leemos: "Ahora, cuando los datos que había sido fingido, yo sé muy bien cómo, generalmente, las personas subestiman la frecuencia de la amplia posibilidad de desviaciones, por lo que la tendencia es siempre hacer que coinciden muy bien con las expectativas... de las desviaciones [en Mendel datos] son sorprendentemente pequeñas." El gran RA Fisher está tan interesado en la sospecha de pequeñas variaciones en pequeñas muestras que él escribe: "sigue siendo una posibilidad, entre otras, que Mendel fue engañado por algunos de los asistentes que sabía muy bien lo que se esperaba."

Y es muy posible que este sesgo hacia la comprensión o incomprensión de propagación persiste en la actualidad. Si es así, ¿hay alguna explicación de por qué nos sentimos más cómodos con la centralidad de los conceptos que con la dispersión? ¿Hay algo que podamos hacer para internalizar la idea?

Algunos de los conceptos que "vemos" en un instante, y luego que no, pero tenemos que aceptarlas y seguir adelante. Por ejemplo, $\small e^{i\pi}+1=0$ o $\small E=mc^2$, pero que en realidad no necesitan siquiera saben acerca de estas identidades para tomar decisiones en nuestra vida diaria. El mismo no es cierto de la varianza. Así pues, ¿no sería más intuitivo?

Nassim Taleb ha hecho una fortuna, aplicando su (bueno, realmente Benoit Mandelbrot s) percepción de la comprensión deficiente de la varianza para la explotación de los tiempos de crisis, y ha tratado de hacer el concepto comprensible para las masas con frases como, "la varianza de la varianza es, epistemológicamente, una medida de la falta de conocimiento acerca de la falta de conocimiento de la media" - sí, no hay más contexto a este bocado... Y para su crédito, él también ha hecho más fácil con el día de acción de gracias Turquía idea. Uno puede argumentar que la clave para invertir es la comprensión de la varianza y covarianza).

Así que ¿por qué es tan resbaladizo, y cómo remediarlo? Sin fórmulas... sólo la intuición de años de lidiar con la incertidumbre... no sé la respuesta, pero no es matemático (necesariamente): por ejemplo, me pregunto si la idea de curtosis interfiere con la varianza. En el siguiente gráco tenemos dos histogramas se superponen con prácticamente la misma varianza; sin embargo, mi reacción de reflejo es que el uno de los más colas, y el pico más alto (mayor curtosis) es más "spread":

DYRGU.png

12voto

dan90266 Puntos 609

Comparto la sensación de que la varianza es un poco menos intuitivo. Lo que es más importante, la varianza como medida está optimizado para ciertas distribuciones y tiene menos valor para distribuciones asimétricas. La media de la diferencia absoluta de la media no es mucho más intuitivo, en mi opinión, porque requiere que se elija la media como medida de tendencia central. Yo prefiero de Gini de la diferencia de medias --- la media de la diferencia absoluta sobre todos los pares de observaciones. Es intuitiva, robusta y eficiente. En la eficiencia, si los datos provienen de una distribución de Gauss, de Gini de la diferencia de medias con un reescalado factor aplicado es de 0,98 tan eficiente como la desviación estándar de la muestra. Es un eficiente la computación en la fórmula para el coeficiente de Gini de la diferencia de medias una vez que los datos están ordenados. R código de abajo.

w <- 4 * ((1:n) - (n - 1)/2)/n/(n - 1)
sum(w * sort(x - mean(x)))

4voto

Joe Puntos 152

Aquí están algunos de mis pensamientos. No se refiere a cualquier ángulo que usted podría mirar a tu pregunta, de hecho, hay un montón no dirección (la pregunta hace sentir un poco amplio).

¿Por qué es difícil para los laicos para entender el cálculo matemático de la Varianza?

La varianza es esencialmente cómo extendido son las cosas. Esto es bastante fácil de entender, pero la manera en que se calcula puede parecer contra-intuitivo para un laico.

El problema es que las diferencias de la media son cuadrados (promediados) y, a continuación, plaza de la raíz para obtener la Desviación Estándar. Hemos de entender por qué este método es necesario - la cuadratura es hacer que los valores positivos y, a continuación, que son cuadrados de raíces para obtener las unidades originales. Sin embargo, un laico es probable que sea confundido con el por qué los números son cuadrados y plaza de raíces. Esto parece que se anula a si misma (no) así que parece inútil/extraño.

Lo que es más intuitivo para ellos es encontrar la propagación por simplemente el promedio de las diferencias absolutas entre la media y cada punto (llamado Media desviación absoluta). Este método no requiere el cuadrado y el cuadrado de enraizamiento, por lo que es mucho más intuitivo.

Tenga en cuenta que sólo porque Significa Desviación Absoluta es más sencillo, no quiere decir que sea "la mejor". El debate de si el uso de las Plazas o en valores Absolutos ha estado sucediendo durante un siglo que involucran a muchos prominentes estadísticos, por lo que una persona al azar, como yo, no sólo puede mostrar hasta aquí y decir que uno es mejor. (Promedio de los cuadrados para encontrar la varianza es de curso más popular)

En pocas palabras: La Cuadratura para encontrar la varianza parece menos intuitivo para los laicos que se encuentra el promedio de las diferencias Absolutas a ser más sencillo. Sin embargo, no creo que la gente tiene un problema con la comprensión de la idea de difundir en sí

3voto

fernandosjp Puntos 31

Aquí va mi opinión sobre tu pregunta.

Voy a empezar por cuestionar una citadas respuesta para, a continuación, intente hacer mi punto.

Pregunta a la hipótesis anterior:

Es que realmente las plazas hace que la dispersión de medidas tales como el Cuadrado de la Desviación Media difícil de entender? Estoy de acuerdo en la plaza hace que sea más difícil trayendo matemáticas de la complejidad, pero si la respuesta fue que sólo las plazas, la Media de la Desviación Absoluta sería tan sencillo de comprender y de las medidas de centralidad.

Opinión:

Creo que lo que hace que sea difícil para nosotros comprender las medidas de dispersión es que la dispersión en sí es un 2-dimensional de la información. Tratando de resumir una de las 2-dimensional de la información en una métrica implica una pérdida parcial de la información que, en consecuencia, causa confusión.

Ejemplo:

Un ejemplo que puede ayudar a explicar el concepto anterior es el siguiente. Vamos a llegar de 2 a diferentes conjuntos de datos:

  1. Sigue una distribución Gaussiana
  2. Sigue a un desconocido y asimétrica distribución

Supongamos también que la dispersión en términos de la Desviación Estándar es de 1.0.

Mi mente tiende a interpretar la dispersión de conjunto 1 mucho más clara que la de conjunto 2. En este caso específico, la razón de mi una mejor comprensión se explica sabiendo 2 de la forma tridimensional de la distribución de antemano me permite entender la distribución de la medida en términos de una probabilidad en torno a la centralización de los Gaussiano de media. En otras palabras, la distribución Gaussiana me dio la 2-dimensional de la pista que necesitaba para mejor traducir a partir de la medida de dispersión.

Conclusión:

En suma, no hay manera tangible para capturar en una Desviación de la Medida de todo lo que hay en un 2-dimensional de la información. Lo que yo suelo hacer para comprender la dispersión sin mirar directamente a la propia distribución es la combinación de muchas de las medidas que explicar una cierta distribución. Se va a establecer el contexto de mi mente para tener una mejor comprensión de la dispersión de la medida en sí. Si yo pudiera hacer uso de los gráficos sin duda diagramas de caja son realmente útiles para visualing.

La gran discusión que me hizo pensar mucho sobre el tema. Me encantaría saber tu opinión.

3voto

Eero Puntos 1612

Creo que un simple razón de que las personas tienen un tiempo más difícil con la variabilidad (si la varianza, la desviación estándar, LOCO, o lo que sea) es que realmente no se puede entender la variabilidad hasta después de que usted entiende la idea de centro. Esto es debido a que las medidas de la variabilidad son todos medido en función de la distancia desde el centro.

Conceptos como la media y la mediana son conceptos paralelos, usted puede aprender uno primero y algunas personas pueden tener una mejor comprensión de uno y lo otro, la gente va a entender a la otra mejor. Pero la propagación se mide desde el centro (para algunos definición de centro), por lo que no puede ser realmente entendido en primer lugar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X