No es una respuesta directa a su pregunta sobre las funciones de pérdida, pero soy estadístico y utilizo la jerga de mi especialidad, no la del aprendizaje automático. Intentaré responder a la pregunta "¿qué estadístico es el mejor estimador de la media poblacional?"
Es incorrecto decir en general que la media aritmética supone una pérdida de información. De hecho, en algunas circunstancias, puede demostrarse que la media aritmética o alguna función de la misma contiene tanta información ( Información sobre Fisher ) como los propios datos. Este es el concepto de estadística suficiente es decir, algún resumen de los datos que sea suficiente para los datos.
Por ejemplo, si sabe que sus datos siguen una distribución de Poisson, el estadístico suficiente es $T(X) = X_1 + ... + X_n$ . Que es simplemente la suma de los datos. Para una distribución normal en la que se conoce la varianza, la media aritmética muestral es el estadístico suficiente para la media poblacional. Es decir, contiene toda la información y ninguna otra estadística lo hará mejor. Ahora bien, nunca nos encontramos en la situación en la que sabemos que los datos se distribuyen normalmente y resulta que conocemos exactamente la varianza. Pero para eso existe el teorema del límite central. Incluso para datos sesgados, si lo que realmente te importa es la media poblacional, entonces la media aritmética es una buena apuesta, especialmente si tienes muchas observaciones. Así que en ese sentido, yo diría que en muchas circunstancias, especialmente cuando se tiene una gran cantidad de observaciones de la media aritmética es mejor si lo que te importa es la media poblacional.
Ahora bien, si por casualidad se encuentra en la posición privilegiada de saber que sus datos proceden de alguna otra distribución, tal vez alguna distribución exponencial negativa patológica, entonces tiene usted razón, puede haber un estadístico suficiente mejor. En ese caso, el estadístico suficiente para $\mu$ es la observación mínima. Este es el ejemplo favorito de Mukhopadhyay en Probabilidad e inferencia estadística y allí encontrarás todos los ejercicios que puedas estomagar para demostrar.
Para responder a su pregunta de forma más general, sobre cómo elegir la mejor estadística: trace sus datos. Obsérvelos. Piensa de dónde proceden y cómo se recogieron. Piense en qué es lo que realmente está tratando de inferir y si la forma en que se recogieron estos datos es realmente apropiada para ello. Piense en la forma de sus datos: ¿Son datos estrictamente enteros? ¿Proporciones con un denominador conocido? ¿Son asimétricos? En caso afirmativo, ¿sería una log-normal una buena aproximación? Elija una familia paramétrica que le parezca adecuada y, si es necesario, haga alguna salvedad.
7 votos
Buena pregunta, pero creo que una vez que has dicho L2-loss es lo que te importa, $\hat \mu_1$ es correcto por definición. Me resulta difícil decir que alguna vez utilizaría el rango medio, porque el mínimo y el máximo no son muy estables; sin embargo, podría considerar el rango medio (media del primer y tercer cuartil). Quizá te interese leer esto: ¿Qué "medio" utilizar y cuándo?
1 votos
$\hat \mu_2$ es una estadística extraña. Si pretende que sea la mediana, cambie " $49$ " a " $51$ ". @Gung El rango medio conduce a bajas pérdidas esperadas para muchas funciones de pérdida cuando la distribución subyacente es cercana a la uniforme o simétricamente en forma de u.
2 votos
Su pregunta en el último párrafo " definiendo una función de pérdida -para simplificar, L2-loss- cómo juzgar qué $\hat{}$ ¿es mejor? "no me ha quedado claro. Parece que le faltan algunas palabras. Sin embargo, si se define una función de pérdida, entonces que va a definir "lo que es mejor" (lo que minimiza la función de pérdida). El MSE del rango medio depende de la distribución (pero que sea el mejor depende de la función de pérdida, ya que ésta define lo que significa "mejor" - ¿por qué utilizar el MSE para comparar, en lugar de la función de pérdida?)
0 votos
@ScouserInTrousers ¿qué condición estás utilizando para definir la mediana como un mejor estimador? La mediana es menos eficiente que la media. El punto medio del rango aún más.
0 votos
@whuber por supuesto que eso es lo que quiero decir. Arreglado.