23 votos

Propiedades de la media y la mediana

¿Puede alguien explicarme claramente la lógica matemática que uniría dos afirmaciones (a) y (b)? Tengamos un conjunto de valores (una cierta distribución). Ahora bien

a) La mediana no depende de todos los valores [sólo depende de uno o dos valores medios]; b) La mediana es el lugar donde la suma de las desviaciones absolutas es mínima.

Y del mismo modo, y en contraste,

a) La media (aritmética) depende de cada valor; b) La media es el lugar donde la suma de las desviaciones al cuadrado es mínima.

Hasta ahora lo he entendido intuitivamente.

28voto

jldugger Puntos 7490

Se trata de dos preguntas: una sobre cómo la media y la mediana minimizan funciones de pérdida y otro sobre el sensibilidades de estas estimaciones a los datos. Ambas cuestiones están relacionadas, como veremos.

Minimizar las pérdidas

Un resumen (o estimador) de la centro de un lote de números puede crearse dejando que cambie el valor sumatorio e imaginando que cada número del lote ejerce una fuerza restauradora sobre ese valor. Cuando la fuerza nunca aleja el valor de un número, entonces podría decirse que cualquier punto en el que las fuerzas se equilibren es un "centro" del lote.

Cuadrático ( $L_2$ ) Pérdida

Por ejemplo, si fijáramos un muelle clásico (siguiendo Ley de Hooke ) entre el sumario y cada número, la fuerza sería proporcional a la distancia a cada muelle. Los resortes tirarían del sumario hacia un lado y hacia otro, asentándose finalmente en un único lugar estable de mínima energía.

Me gustaría llamar la atención sobre un pequeño juego de manos que acaba de ocurrir: el energía es proporcional a la suma de al cuadrado distancias. La mecánica newtoniana nos enseña que la fuerza es la tasa de cambio de la energía. Alcanzar el equilibrio, es decir, minimizar la energía, permite equilibrar las fuerzas. La tasa neta de cambio de la energía es cero.

Llamemos a esto el " $L_2$ resumen" o "resumen de pérdidas al cuadrado".

Absoluto ( $L_1$ ) Pérdida

Se puede crear otro resumen suponiendo que el tallas de las fuerzas restauradoras son constante independientemente de las distancias entre el valor y los datos. Sin embargo, las fuerzas en sí no son constantes, ya que siempre deben tirar del valor hacia cada punto de datos. Así, cuando el valor es menor que el punto de datos, la fuerza se dirige positivamente, pero cuando el valor es mayor que el punto de datos, la fuerza se dirige negativamente. Ahora bien, la energía es proporcional a las distancias entre el valor y los datos. Normalmente habrá toda una región en la que la energía es constante y la fuerza neta es cero. Cualquier valor en esta región podríamos llamarlo el " $L_1$ resumen" o "resumen de pérdidas absolutas".

Estas analogías físicas proporcionan una intuición útil sobre los dos resúmenes. Por ejemplo, ¿qué ocurre con el resumen si movemos uno de los puntos de datos? En el $L_2$ En el caso de los resortes, el movimiento de un punto de datos estira o relaja su resorte. El resultado es un cambio de fuerza en el resumen, por lo que debe cambiar en respuesta. Pero en el $L_1$ caso, la mayoría de las veces un cambio en un punto de datos no hace nada al resumen, porque la fuerza es localmente constante. La única forma de que la fuerza cambie es que el punto de datos se desplace por el resumen.

(De hecho, debería ser evidente que la fuerza neta sobre un valor viene dada por el número de puntos mayores que él -que tiran de él hacia arriba- menos el número de puntos menores que él -que tiran de él hacia abajo-. Por tanto, la $L_1$ resumen debe producirse en cualquier lugar en el que el número de valores de datos que lo superen sea exactamente igual al número de valores de datos que lo superen).

Representar las pérdidas

Dado que tanto las fuerzas como las energías se suman, en cualquier caso podemos descomponer la energía neta en contribuciones individuales de los puntos de datos. Al representar gráficamente la energía o la fuerza en función del valor del resumen, se obtiene una imagen detallada de lo que ocurre. El resumen será un punto en el que la energía (o "pérdida" en lenguaje estadístico) es menor. Equivalentemente, será un lugar en el que las fuerzas se equilibren: el centro de los datos se produce donde el cambio neto en la pérdida es cero.

Esta figura muestra las energías y fuerzas para un pequeño conjunto de datos de seis valores (marcados por líneas verticales tenues en cada gráfico). Las curvas negras discontinuas son los totales de las curvas de color que muestran las contribuciones de los valores individuales. El eje x indica los posibles valores del resumen.

Figure 1

En media aritmética es un punto en el que se minimiza la pérdida al cuadrado: estará situado en el vértice (inferior) de la parábola negra del gráfico superior izquierdo. Siempre es único. La dirección mediana es un punto en el que se minimiza la pérdida absoluta. Como ya se ha indicado, debe producirse en el centro de los datos. No es necesariamente único. Estará situado en la parte inferior de la curva negra quebrada de la parte superior derecha. (En realidad, la parte inferior consiste en una corta sección plana entre $-0.23$ y $-0.17$ ; cualquier valor en este intervalo es una mediana).

Análisis de la sensibilidad

Antes he descrito lo que puede ocurrir con el resumen cuando se varía un punto de datos. Es instructivo trazar cómo cambia el resumen en respuesta al cambio de cualquier punto de datos. (Estos gráficos son esencialmente los funciones de influencia empíricas . Se diferencian de la definición habitual en que muestran los valores reales de las estimaciones en lugar de cuánto cambian esos valores). El valor del resumen se etiqueta con "Estimación" en los ejes y para recordarnos que este resumen está estimando dónde se encuentra la mitad del conjunto de datos. Los nuevos valores (modificados) de cada punto de datos se muestran en sus ejes x.

Figure 2

Esta figura presenta los resultados de variar cada uno de los valores de los datos del lote $-1.02, -0.82, -0.23, -0.17, -0.08, 0.77$ (el mismo analizado en la primera figura). Hay un gráfico para cada valor de datos, que se resalta en su gráfico con una marca negra larga a lo largo del eje inferior. (El resto de los datos se muestran con marcas grises cortas). $L_2$ resumen -la media aritmética- y la curva roja traza el $L_1$ resumen la mediana. (Como a menudo la mediana es un rango de valores, aquí se sigue la convención de trazar el centro de ese rango).

Aviso:

  1. La sensibilidad de la media es ilimitada: esas líneas azules se extienden infinitamente hacia arriba y hacia abajo. La sensibilidad de la mediana está acotada: las curvas rojas tienen límites superior e inferior.

  2. Sin embargo, la mediana cambia, cambia mucho más rápido que la media. La pendiente de cada línea azul es $1/6$ (generalmente es $1/n$ para un conjunto de datos con $n$ ), mientras que las pendientes de las partes inclinadas de las líneas rojas son todas $1/2$ .

  3. La media es sensible a cada punto de datos y esta sensibilidad no tiene límites (como indican las pendientes no nulas de todas las líneas de color en el gráfico inferior izquierdo de la primera figura). Aunque la mediana es sensible a todos los puntos de datos, su sensibilidad está limitada (por eso las curvas de color del gráfico inferior derecho de la primera figura se sitúan dentro de un estrecho intervalo vertical en torno a cero). Se trata, por supuesto, de meras reiteraciones visuales de la ley básica de fuerza (pérdida): cuadrática para la media, lineal para la mediana.

  4. El intervalo en el que se puede hacer que cambie la mediana puede variar entre los puntos de datos. Siempre está delimitado por dos de los valores próximos a la mediana entre los datos que no varían . (Estos límites están marcados por tenues líneas discontinuas verticales).

  5. Dado que la tasa de variación de la mediana es siempre $1/2$ El importe por lo que podría variar viene determinada por la longitud de esta brecha entre valores cercanos al medio del conjunto de datos.

Aunque sólo se suele señalar el primer punto, todos ellos son importantes. En particular,

  • Es definitivamente falso que la "mediana no depende de cada valor". Esta figura ofrece un contraejemplo.

  • No obstante, la mediana no depende "materialmente" de cada valor en el sentido de que, aunque el cambio de los valores individuales puede cambiar la mediana, la importe del cambio está limitada por las diferencias entre los valores cercanos a la media en el conjunto de datos. En concreto, la cantidad de cambio es delimitado . Decimos que la mediana es un resumen "resistente".

  • Aunque la media no resiste y cambiará siempre que cualquier se modifica el valor de los datos, el tipo de cambio es relativamente pequeño. Cuanto mayor sea el conjunto de datos, menor será el índice de cambio. De forma equivalente, para que se produzca un cambio material en la media de un gran conjunto de datos, al menos un valor debe sufrir una variación relativamente grande. Esto sugiere que la no resistencia de la media sólo es preocupante para (a) conjuntos de datos pequeños o (b) conjuntos de datos en los que uno o más datos pueden tener valores extremadamente alejados de la mitad del lote.

Estas observaciones -que espero que las cifras hagan evidentes- revelan una profunda conexión entre la función de pérdida y el sensibilidad (o resistencia) del estimador. Para más información, consulte uno de los artículos de Wikipedia sobre los estimadores M y luego llevar esas ideas tan lejos como quieras.


Código

Este R produjo las figuras y puede modificarse fácilmente para estudiar cualquier otro conjunto de datos de la misma manera: basta con sustituir el vector creado aleatoriamente por y con cualquier vector de números.

#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
  sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
  apply(col2rgb(c)/255 * x, 2, function(s)  rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics, 
                         function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
  #
  # Create a standard, consistent plot region.
  #
  plot(x.limits, y.limits, type="n", 
       xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
       main=paste("Sensitivity to y[", i, "]", sep=""))
  #legend("topleft", legend=names(statistics), col=colors, lwd=1)
  #
  # Mark the limits of the possible medians.
  #
  n <- length(y)/2
  bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
  abline(v=range(bars), lty=2, col="Gray")
  rug(y, col="Gray", ticksize=0.05);
  #
  # Show which value is being varied.
  #
  rug(y[1], col="Black", ticksize=0.075, lwd=2)
  #
  # Plot the statistics as the value is varied between x.limits.
  #
  invisible(mapply(function(f,c) 
    curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
    statistics, colors))
  y <- c(y[-1], y[1])    # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
                   "Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
  f <- losses[[j]]
  y.range <- range(c(0, 1.1*loss(y, y, f)))
  #
  # Plot the loss (or its rate of change).
  #
  curve(loss(x, y, f), from=min(x.limits), to=max(x.limits), 
        n=1001, lty=3,
        ylim=y.range, xlab="Value", ylab=loss.types[j],
        main=names(losses)[j])
  #
  # Draw the x-axis if needed.
  #
  if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
  #
  # Faintly mark the data values.
  #
  abline(v=y, col="#00000010")
  #
  # Plot contributions to the loss (or its rate of change).
  #
  for (i in 1:length(y)) {
    curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
  }
  rug(y, side=3)
}

13voto

Akira Puntos 1061

Para el cálculo de la mediana, dejemos que $x_1,x_2,\ldots,x_n$ sean los datos. Supongamos, para simplificar, que $n$ es par, ¡y los puntos son distintos! Sea $y$ sea un número cualquiera. Sea $f(y)$ sea la "suma de las desviaciones absolutas" de $y$ a los puntos $x_i$ . Esto significa que $f(y) = |x_1 - y| + |x_2 - y| + \ldots + |x_n - y|$ . Su objetivo es encontrar el $y$ que minimiza $f(y)$ . Sea $l$ sea el número de $x_i$ que sean inferiores o exactamente iguales a $y$ en un momento dado, y que $r = n - l$ sea el número que es estrictamente mayor que $y$ . Imagina que te mueves $y$ a la derecha", es decir, aumentar $y$ ligeramente. ¿Qué le ocurre a $f(y)$ ?

Supongamos que añade una cantidad de $\Delta y$ à $y$ . Para aquellos $x_i$ que sean inferiores o iguales a $y$ tenemos $|x_i - y|$ aumenta en $\Delta y$ . Y para los mayores de $y$ tenemos $|x_i - y|$ disminuye en $\Delta y$ . (Esto supone $\Delta y$ es tan pequeño que $y$ no cruza ninguno de los puntos). Por lo tanto, el cambio en $f(y)$ es $l\Delta y - r \Delta y = (l-r)\Delta y$ . Tenga en cuenta que este cambio en $f(y)$ no depende de los valores de $x_i$ pero sólo en el número a la izquierda y a la derecha de $y$ . Por definición, $y$ es un valor mediano cuando al moverlo a la izquierda o a la derecha no aumenta ni disminuye $f(y)$ . Esto significaría que $l-r = 0$ y, por tanto, el número de $x_i$ a la izquierda de $y$ es igual al número a la derecha de $y$ . Por lo tanto, la mediana no depende de los valores de $x_i$ sólo sus ubicaciones.

editar Para la media: la función $f(y)$ se convierte en $f(y) = (x_1 - y)^2 + \ldots + (x_n - y)^2$ . Es evidente que el cambio en $f(y)$ por un pequeño cambio en $y$ depende ahora de las magnitudes $x_i$ no sólo el número a la izquierda y a la derecha de $y$ .

Tenga en cuenta que esto de la "calderilla" no es más que palabrería encubierta para el derivado de $f(y)$ ...

5voto

ocram Puntos 9992
  • A grandes rasgos, la mediana es el "valor medio". Ahora bien, si cambiamos el valor más alto (que se supone que aquí es positivo) de $x_{(n)}$ à $2 * x_{(n)}$ no cambia la mediana. Pero sí cambia la media aritmética. Esto demuestra, en términos sencillos, que la mediana no depende de cada valor, mientras que la media sí. En realidad, la mediana sólo depende de los rangos. La lógica matemática que subyace a esto se deriva simplemente de las definiciones matemáticas de mediana y media.
  • Ahora, se puede demostrar que, para cualquier $ a \in \mathbb{R}$

$\sum_{i=1}^{n} |x_{i} - median| \leq \sum_{i=1}^{n} |x_{i} - a|$

y

$\sum_{i=1}^{n} (x_{i} - mean)^{2} \leq \sum_{i=1}^{n} (x_{i} - a)^{2}$

4voto

Mathematics Lover Puntos 165

Hola aquí va una aportación, después de leer un poco sobre el tema. Probablemente un poco tarde para la persona que preguntó, pero tal vez vale la pena para alguien más.

Para el caso medio :

Considere el problema $argmin_x \sum_{i=1}^n (y_i - x)$

Introduzca $f(x) = \sum_{i=1}^n(y_i - x)^2$

$f'(x)=0 \Leftrightarrow 2 \sum_{i=1}^n (y_i - x ) = 0$

$f'(x)=0\Leftrightarrow \sum_{i=1}^n y_i = \sum_{i=1}^n x$

$f'(x)=0\Leftrightarrow x = \frac{\sum_{i=1}^n}{n}$

Como la función es convexa, se trata de un mínimo

Para el caso mediano

Considere el problema $argmin_x \sum_{i=1}^n |y_i - x|$

Introduzca $f(x) = \sum_{i=1}^n|y_i - x|$

$f'(x)=0 \Leftrightarrow \sum_{i=1}^n sgn(y_i - x ) = 0$

(donde $sgn(x)$ es el signo de x : $sgn(x)=1$ si $x >0$ y $sgn(x)=-1$ si $x<0$ )

$f'(x)=0\Leftrightarrow \# \{y_i / y_i >x \} - \# \{y_i / y_i <x \} = 0 $

(donde $\#{}$ es el cardinal del espacio, por lo que en este caso discreto, el número de elementos en él)

$f'(x)=0\Leftrightarrow x$ es la mediana si n es impar (hay que afinar un poco si es par, pero el principio es el mismo).

Como la función también es convexa, se trata de nuevo de un mínimo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X