7 votos

Dicen que "hay que sacar la media". No es tan sencillo, ¿verdad?

Tengo un conocido que no estudia estadística y no entiende que sumar datos y dividir por el número de datos es un resumen estadística, es decir, que se pierde información.

Por ejemplo, supongamos que hay datos que son mediciones de algún tipo: $x_1, ..., x_{100}$ . La medida más común de centralidad es $$\hat{\mu}_1 = \bar{x} = \frac{1}{100}(x_1 + ... + x_{100})$$ Sin embargo, si los datos están sesgados, entonces $$\hat{\mu}_2 = \tilde{x} = \frac{1}{2}(x_{(50)} + x_{(51)})$$ es un mejor estimador. Luego, por supuesto, está el rango medio $$\hat{\mu}_3 = \frac{1}{2}(x_{(1)} + x_{(100)})$$ es una opción.

Mi pregunta es: definiendo una función de pérdida -para simplificar, L2-loss- ¿cómo juzgar qué $\hat{\mu}$ ¿es mejor? Obviamente, la respuesta es específica para los datos, pero ¿cuál es el MSE del rango medio, por ejemplo?

7 votos

Buena pregunta, pero creo que una vez que has dicho L2-loss es lo que te importa, $\hat \mu_1$ es correcto por definición. Me resulta difícil decir que alguna vez utilizaría el rango medio, porque el mínimo y el máximo no son muy estables; sin embargo, podría considerar el rango medio (media del primer y tercer cuartil). Quizá te interese leer esto: ¿Qué "medio" utilizar y cuándo?

1 votos

$\hat \mu_2$ es una estadística extraña. Si pretende que sea la mediana, cambie " $49$ " a " $51$ ". @Gung El rango medio conduce a bajas pérdidas esperadas para muchas funciones de pérdida cuando la distribución subyacente es cercana a la uniforme o simétricamente en forma de u.

2 votos

Su pregunta en el último párrafo " definiendo una función de pérdida -para simplificar, L2-loss- cómo juzgar qué $\hat{}$ ¿es mejor? "no me ha quedado claro. Parece que le faltan algunas palabras. Sin embargo, si se define una función de pérdida, entonces que va a definir "lo que es mejor" (lo que minimiza la función de pérdida). El MSE del rango medio depende de la distribución (pero que sea el mejor depende de la función de pérdida, ya que ésta define lo que significa "mejor" - ¿por qué utilizar el MSE para comparar, en lugar de la función de pérdida?)

13voto

Dalton Hance Puntos 378

No es una respuesta directa a su pregunta sobre las funciones de pérdida, pero soy estadístico y utilizo la jerga de mi especialidad, no la del aprendizaje automático. Intentaré responder a la pregunta "¿qué estadístico es el mejor estimador de la media poblacional?"

Es incorrecto decir en general que la media aritmética supone una pérdida de información. De hecho, en algunas circunstancias, puede demostrarse que la media aritmética o alguna función de la misma contiene tanta información ( Información sobre Fisher ) como los propios datos. Este es el concepto de estadística suficiente es decir, algún resumen de los datos que sea suficiente para los datos.

Por ejemplo, si sabe que sus datos siguen una distribución de Poisson, el estadístico suficiente es $T(X) = X_1 + ... + X_n$ . Que es simplemente la suma de los datos. Para una distribución normal en la que se conoce la varianza, la media aritmética muestral es el estadístico suficiente para la media poblacional. Es decir, contiene toda la información y ninguna otra estadística lo hará mejor. Ahora bien, nunca nos encontramos en la situación en la que sabemos que los datos se distribuyen normalmente y resulta que conocemos exactamente la varianza. Pero para eso existe el teorema del límite central. Incluso para datos sesgados, si lo que realmente te importa es la media poblacional, entonces la media aritmética es una buena apuesta, especialmente si tienes muchas observaciones. Así que en ese sentido, yo diría que en muchas circunstancias, especialmente cuando se tiene una gran cantidad de observaciones de la media aritmética es mejor si lo que te importa es la media poblacional.

Ahora bien, si por casualidad se encuentra en la posición privilegiada de saber que sus datos proceden de alguna otra distribución, tal vez alguna distribución exponencial negativa patológica, entonces tiene usted razón, puede haber un estadístico suficiente mejor. En ese caso, el estadístico suficiente para $\mu$ es la observación mínima. Este es el ejemplo favorito de Mukhopadhyay en Probabilidad e inferencia estadística y allí encontrarás todos los ejercicios que puedas estomagar para demostrar.

Para responder a su pregunta de forma más general, sobre cómo elegir la mejor estadística: trace sus datos. Obsérvelos. Piensa de dónde proceden y cómo se recogieron. Piense en qué es lo que realmente está tratando de inferir y si la forma en que se recogieron estos datos es realmente apropiada para ello. Piense en la forma de sus datos: ¿Son datos estrictamente enteros? ¿Proporciones con un denominador conocido? ¿Son asimétricos? En caso afirmativo, ¿sería una log-normal una buena aproximación? Elija una familia paramétrica que le parezca adecuada y, si es necesario, haga alguna salvedad.

0 votos

Intentaré responder a la pregunta: "¿qué estadístico es el mejor estimador de la media de la población?". Esta formulación es la clave, ya que, de lo contrario, la pregunta del candidato estaría mal planteada.

2voto

Xenoactive Puntos 11

Aprovechando la respuesta de Dalton:

Su pregunta, tal como está planteada, es incompleta. La "información" como concepto estadístico sólo se define con referencia a un parámetro desconocido, así como a algún estadístico (función de los datos completos), incluido el caso degenerado de los datos completos. Exactamente no estadística de los datos tiene más información sobre cualquier parámetro que los datos completos, pero a veces las estadísticas tienen tanta información como los datos completos sobre un parámetro específico .

Tu intuición parece ser que las estadísticas resumidas reducen el contenido informativo de los datos completos, pero de nuevo, ni siquiera los datos completos tienen contenido informativo, a menos que se refieran a algún parámetro . Es cierto que, si se está estimando la varianza de una población Normal, el estadístico $S^2$ (varianza muestral) tiene no contenido informativo sobre $\mu$ (la media de la población). Pero como se ha señalado anteriormente, $\bar{X}$ contiene igual información sobre $\mu$ al igual que los datos completos.

Su pregunta está incompleta porque la definición intuitiva y casual de "información" es muy diferente de su definición matemática. Para cualquier situación concreta del mundo real, por supuesto tendrás que juzgar cuál es la hipótesis adecuada para la distribución (teniendo en cuenta la asimetría, el soporte, etc.) y, en consecuencia, qué estadísticas concretas preservan la información que necesitas.

Por cierto, $\bar{X}$ no proporciona ninguna información sobre la varianza de una Normal( $\mu$ , $\sigma^2$ ), pero conociendo el par $(\bar{X}, S^2)$ proporciona la misma información que los datos completos sobre ambos parámetros.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X