Se trata de dos preguntas: una sobre cómo la media y la mediana minimizan funciones de pérdida y otro sobre el sensibilidades de estas estimaciones a los datos. Ambas cuestiones están relacionadas, como veremos.
Minimizar las pérdidas
Un resumen (o estimador) de la centro de un lote de números puede crearse dejando que cambie el valor sumatorio e imaginando que cada número del lote ejerce una fuerza restauradora sobre ese valor. Cuando la fuerza nunca aleja el valor de un número, entonces podría decirse que cualquier punto en el que las fuerzas se equilibren es un "centro" del lote.
Cuadrático ( $L_2$ ) Pérdida
Por ejemplo, si fijáramos un muelle clásico (siguiendo Ley de Hooke ) entre el sumario y cada número, la fuerza sería proporcional a la distancia a cada muelle. Los resortes tirarían del sumario hacia un lado y hacia otro, asentándose finalmente en un único lugar estable de mínima energía.
Me gustaría llamar la atención sobre un pequeño juego de manos que acaba de ocurrir: el energía es proporcional a la suma de al cuadrado distancias. La mecánica newtoniana nos enseña que la fuerza es la tasa de cambio de la energía. Alcanzar el equilibrio, es decir, minimizar la energía, permite equilibrar las fuerzas. La tasa neta de cambio de la energía es cero.
Llamemos a esto el " $L_2$ resumen" o "resumen de pérdidas al cuadrado".
Absoluto ( $L_1$ ) Pérdida
Se puede crear otro resumen suponiendo que el tallas de las fuerzas restauradoras son constante independientemente de las distancias entre el valor y los datos. Sin embargo, las fuerzas en sí no son constantes, ya que siempre deben tirar del valor hacia cada punto de datos. Así, cuando el valor es menor que el punto de datos, la fuerza se dirige positivamente, pero cuando el valor es mayor que el punto de datos, la fuerza se dirige negativamente. Ahora bien, la energía es proporcional a las distancias entre el valor y los datos. Normalmente habrá toda una región en la que la energía es constante y la fuerza neta es cero. Cualquier valor en esta región podríamos llamarlo el " $L_1$ resumen" o "resumen de pérdidas absolutas".
Estas analogías físicas proporcionan una intuición útil sobre los dos resúmenes. Por ejemplo, ¿qué ocurre con el resumen si movemos uno de los puntos de datos? En el $L_2$ En el caso de los resortes, el movimiento de un punto de datos estira o relaja su resorte. El resultado es un cambio de fuerza en el resumen, por lo que debe cambiar en respuesta. Pero en el $L_1$ caso, la mayoría de las veces un cambio en un punto de datos no hace nada al resumen, porque la fuerza es localmente constante. La única forma de que la fuerza cambie es que el punto de datos se desplace por el resumen.
(De hecho, debería ser evidente que la fuerza neta sobre un valor viene dada por el número de puntos mayores que él -que tiran de él hacia arriba- menos el número de puntos menores que él -que tiran de él hacia abajo-. Por tanto, la $L_1$ resumen debe producirse en cualquier lugar en el que el número de valores de datos que lo superen sea exactamente igual al número de valores de datos que lo superen).
Representar las pérdidas
Dado que tanto las fuerzas como las energías se suman, en cualquier caso podemos descomponer la energía neta en contribuciones individuales de los puntos de datos. Al representar gráficamente la energía o la fuerza en función del valor del resumen, se obtiene una imagen detallada de lo que ocurre. El resumen será un punto en el que la energía (o "pérdida" en lenguaje estadístico) es menor. Equivalentemente, será un lugar en el que las fuerzas se equilibren: el centro de los datos se produce donde el cambio neto en la pérdida es cero.
Esta figura muestra las energías y fuerzas para un pequeño conjunto de datos de seis valores (marcados por líneas verticales tenues en cada gráfico). Las curvas negras discontinuas son los totales de las curvas de color que muestran las contribuciones de los valores individuales. El eje x indica los posibles valores del resumen.
En media aritmética es un punto en el que se minimiza la pérdida al cuadrado: estará situado en el vértice (inferior) de la parábola negra del gráfico superior izquierdo. Siempre es único. La dirección mediana es un punto en el que se minimiza la pérdida absoluta. Como ya se ha indicado, debe producirse en el centro de los datos. No es necesariamente único. Estará situado en la parte inferior de la curva negra quebrada de la parte superior derecha. (En realidad, la parte inferior consiste en una corta sección plana entre $-0.23$ y $-0.17$ ; cualquier valor en este intervalo es una mediana).
Análisis de la sensibilidad
Antes he descrito lo que puede ocurrir con el resumen cuando se varía un punto de datos. Es instructivo trazar cómo cambia el resumen en respuesta al cambio de cualquier punto de datos. (Estos gráficos son esencialmente los funciones de influencia empíricas . Se diferencian de la definición habitual en que muestran los valores reales de las estimaciones en lugar de cuánto cambian esos valores). El valor del resumen se etiqueta con "Estimación" en los ejes y para recordarnos que este resumen está estimando dónde se encuentra la mitad del conjunto de datos. Los nuevos valores (modificados) de cada punto de datos se muestran en sus ejes x.
Esta figura presenta los resultados de variar cada uno de los valores de los datos del lote $-1.02, -0.82, -0.23, -0.17, -0.08, 0.77$ (el mismo analizado en la primera figura). Hay un gráfico para cada valor de datos, que se resalta en su gráfico con una marca negra larga a lo largo del eje inferior. (El resto de los datos se muestran con marcas grises cortas). $L_2$ resumen -la media aritmética- y la curva roja traza el $L_1$ resumen la mediana. (Como a menudo la mediana es un rango de valores, aquí se sigue la convención de trazar el centro de ese rango).
Aviso:
-
La sensibilidad de la media es ilimitada: esas líneas azules se extienden infinitamente hacia arriba y hacia abajo. La sensibilidad de la mediana está acotada: las curvas rojas tienen límites superior e inferior.
-
Sin embargo, la mediana cambia, cambia mucho más rápido que la media. La pendiente de cada línea azul es $1/6$ (generalmente es $1/n$ para un conjunto de datos con $n$ ), mientras que las pendientes de las partes inclinadas de las líneas rojas son todas $1/2$ .
-
La media es sensible a cada punto de datos y esta sensibilidad no tiene límites (como indican las pendientes no nulas de todas las líneas de color en el gráfico inferior izquierdo de la primera figura). Aunque la mediana es sensible a todos los puntos de datos, su sensibilidad está limitada (por eso las curvas de color del gráfico inferior derecho de la primera figura se sitúan dentro de un estrecho intervalo vertical en torno a cero). Se trata, por supuesto, de meras reiteraciones visuales de la ley básica de fuerza (pérdida): cuadrática para la media, lineal para la mediana.
-
El intervalo en el que se puede hacer que cambie la mediana puede variar entre los puntos de datos. Siempre está delimitado por dos de los valores próximos a la mediana entre los datos que no varían . (Estos límites están marcados por tenues líneas discontinuas verticales).
-
Dado que la tasa de variación de la mediana es siempre $1/2$ El importe por lo que podría variar viene determinada por la longitud de esta brecha entre valores cercanos al medio del conjunto de datos.
Aunque sólo se suele señalar el primer punto, todos ellos son importantes. En particular,
-
Es definitivamente falso que la "mediana no depende de cada valor". Esta figura ofrece un contraejemplo.
-
No obstante, la mediana no depende "materialmente" de cada valor en el sentido de que, aunque el cambio de los valores individuales puede cambiar la mediana, la importe del cambio está limitada por las diferencias entre los valores cercanos a la media en el conjunto de datos. En concreto, la cantidad de cambio es delimitado . Decimos que la mediana es un resumen "resistente".
-
Aunque la media no resiste y cambiará siempre que cualquier se modifica el valor de los datos, el tipo de cambio es relativamente pequeño. Cuanto mayor sea el conjunto de datos, menor será el índice de cambio. De forma equivalente, para que se produzca un cambio material en la media de un gran conjunto de datos, al menos un valor debe sufrir una variación relativamente grande. Esto sugiere que la no resistencia de la media sólo es preocupante para (a) conjuntos de datos pequeños o (b) conjuntos de datos en los que uno o más datos pueden tener valores extremadamente alejados de la mitad del lote.
Estas observaciones -que espero que las cifras hagan evidentes- revelan una profunda conexión entre la función de pérdida y el sensibilidad (o resistencia) del estimador. Para más información, consulte uno de los artículos de Wikipedia sobre los estimadores M y luego llevar esas ideas tan lejos como quieras.
Código
Este R
produjo las figuras y puede modificarse fácilmente para estudiar cualquier otro conjunto de datos de la misma manera: basta con sustituir el vector creado aleatoriamente por y
con cualquier vector de números.
#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
apply(col2rgb(c)/255 * x, 2, function(s) rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics,
function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
#
# Create a standard, consistent plot region.
#
plot(x.limits, y.limits, type="n",
xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
main=paste("Sensitivity to y[", i, "]", sep=""))
#legend("topleft", legend=names(statistics), col=colors, lwd=1)
#
# Mark the limits of the possible medians.
#
n <- length(y)/2
bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
abline(v=range(bars), lty=2, col="Gray")
rug(y, col="Gray", ticksize=0.05);
#
# Show which value is being varied.
#
rug(y[1], col="Black", ticksize=0.075, lwd=2)
#
# Plot the statistics as the value is varied between x.limits.
#
invisible(mapply(function(f,c)
curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
statistics, colors))
y <- c(y[-1], y[1]) # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
"Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
f <- losses[[j]]
y.range <- range(c(0, 1.1*loss(y, y, f)))
#
# Plot the loss (or its rate of change).
#
curve(loss(x, y, f), from=min(x.limits), to=max(x.limits),
n=1001, lty=3,
ylim=y.range, xlab="Value", ylab=loss.types[j],
main=names(losses)[j])
#
# Draw the x-axis if needed.
#
if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
#
# Faintly mark the data values.
#
abline(v=y, col="#00000010")
#
# Plot contributions to the loss (or its rate of change).
#
for (i in 1:length(y)) {
curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
}
rug(y, side=3)
}