Si extraigo una muestra de tamaño n sin sustitución del conjunto {1,2,3,...,N}- ¿cuál es el valor esperado del máximo de la muestra? (n < N). ¿Es posible obtener una solución de forma cerrada?
Respuestas
¿Demasiados anuncios?Casi todas las respuestas tendrán que ser matemáticamente equivalentes. El objetivo de ésta es desarrollar una solución de la manera más perezosa posible: es decir, por puro razonamiento no acompañado de ningún cálculo.
Hay $\binom{N}{n}$ muestras posibles e igualmente probables, ya que cada muestra es un subconjunto de $n$ de la $N$ elementos. (Para los que no conocen esta notación, $\binom{N}{n}$ puede definirse como el número de muestras distintas de tamaño $n$ sin sustitución de $N$ cosas: es decir, el número de $n$ -subconjuntos de $N$ cosas. En esta respuesta no necesitarás conocer ninguna fórmula para estas cantidades. )
Una muestra con valor máximo $k \ge n$ consiste en el número $k$ junto con un subconjunto de $n-1$ de los restantes $k-1$ elementos más pequeños que $k$ . Hay $\binom{k-1}{n-1}$ de estos.
Para obtener la expectativa, por definición debemos multiplicar la probabilidad de cada una de esas muestras, $1/\binom{N}{n},$ por el valor de su máximo, $k,$ y sumarlos:
$$\mathbb{E}(\text{maximum}) = \frac{1}{\binom{N}{n}}\sum_{k=n}^N k\binom{k-1}{n-1}.$$
Hasta aquí las estadísticas. El resto es combinatoria. Nuestro propósito es obtener una fórmula numérica sucinta para esta suma de aspecto bastante abstracto.
Se puede evaluar la suma haciendo muy pocos cálculos. Una forma empieza por interpretar el término $k\binom{k-1}{n-1}$ como un recuento: es el número de formas en que se puede elegir una de $k$ cosas y seleccionar de forma independiente $n-1$ de los restantes $k-1$ cosas. De forma equivalente, podría haber seleccionado todas $n$ de esas cosas (en $\binom{k}{n}$ maneras) y luego elegir uno de esos $n$ cosas como la "primera" elección. Dado que hay $n$ tales opciones,
$$k\binom{k-1}{n-1} = n\binom{k}{n}.\tag{*}$$
Tome el factor constante de $n$ de la suma:
$$\mathbb{E}(\text{maximum}) = \frac{1}{\binom{N}{n}}\, n\, \sum_{k=n}^N \binom{k}{n}.$$
¿Qué podría contar esta suma? Se aplica casi el mismo argumento: asociado a cada $n+1$ -subconjunto de $N+1$ cosas son (1) su máximo, que llamaré $k+1$ y (2) un $n$ -subconjunto de los restantes $k$ cosas más pequeñas. La suma los cuenta dividiendo las posibilidades de dichos subconjuntos por los valores de sus máximos . En consecuencia, cuenta todos los $n+1$ -subconjuntos de $N+1$ cosas y por lo tanto es igual a $\binom{N+1}{n+1}$ . Introduciendo esto en la expectativa (y sin olvidar el factor constante de $n$ ) da
$$\mathbb{E}(\text{maximum}) = \frac{1}{\binom{N}{n}} \left(n\binom{N+1}{n+1}\right).\tag{**}$$
Lo que está entre paréntesis se parece mucho al resultado del recuento que obtuvimos en $(*)$ . Podemos hacerlo multiplicando por $n+1$ y dividiendo por el mismo valor:
$$n\binom{N+1}{n+1} = \frac{n}{n+1} (n+1) \binom{N+1}{n+1} = \frac{n}{n+1}(N+1)\binom{N}{n}.$$
Si se introduce esto en $(**)$ cancela el $\binom{N}{n}$ en la fracción (por lo que nunca hemos necesitado una fórmula para ello), quedando el simple resultado
$$\mathbb{E}(\text{maximum}) = \frac{n}{n+1}(N+1).$$
Si se trata de un muestreo de la población uniforme discreta (sin reemplazo, como ha estipulado), entonces se trata del Problema del Tanque Alemán.
Que la muestra sea $X_1, X_2, \ldots , X_n$ con $Y=\textrm{max} \left( X_1, X_2, \ldots , X_n \right).$
La función de masa conjunta es $$f \left( x_1, x_2, \ldots , x_n \right)=\frac{1}{N \left( N-1 \right) \cdots \left( N-n+1 \right) }$$
La fdc de $Y$ es $$P[Y \le y]=P[X_1 \le y, X_2 \le y, \ldots , X_n \le y]=\frac{y \left( y-1 \right) \cdots \left( y-n+1 \right) }{N \left( N - 1 \right) \cdots \left( N-n+1 \right) } =\frac{{y \choose n}}{N \choose n}$$
Entonces la función de masa de probabilidad será $$g(y) = P[Y=y]=P[Y \le y] - P[Y \le y-1] = \frac{{y \choose n}-{y-1 \choose n}}{N \choose n}=\frac{{y-1} \choose {n-1}}{N \choose n} \ , \textrm{where} \ y \ge n $$
El valor esperado es entonces $$E[Y]=\sum_{y=n}^{N} y \ g(y)=\sum_{y=n}^N y \frac{{y-1} \choose {n-1}}{N \choose n}=\frac{\sum_{y=n}^N y {{y-1} \choose {n-1}}}{N \choose n}=\frac{n \sum_{y=n}^{N} {y \choose n}}{N \choose n}$$
La identidad del palo de hockey es $$\sum_{y=n}^N {y \choose n} = {{N+1} \choose {n+1}}$$
Así que $$E[Y]= \frac{n {{N+1} \choose {n+1}}}{N \choose n}=\left( \frac{n}{n+1} \right) \left( N+1 \right)$$
Este enfoque se recoge en Tenenbein (The Racing Car Problem, $\it{The \ American \ Statistician}$ febrero de 1971).
Como en todos y cada uno de los problemas de muestreo, la respuesta es "Sí, si se tiene acceso a la población y a un algoritmo que enumere eficazmente todas las muestras posibles". Por tanto, si se trata de muestras de tamaño 3 de una población de tamaño 7, entonces sí, probablemente se pueda derivar. Si está hablando de muestras realistas de tamaño 1000 de la población de un país, entonces probablemente puede olvidarse de ello.
La cuestión metodológica central es que la inferencia de la población finita no es paramétrica. La inferencia con respecto al diseño muestral funciona para la población $\{1,2,3,4,5,6,7\}$ así como para la población $\{1,1,1,1,1,1,1,10^6\}$ . Por el contrario, los métodos existentes para tratar los valores extremos se basan en la suposición de una cola suave de una distribución continua, para la cual uno de las tres formas funcionales establecidas por Gnedenko sería aplicable, y una muestra i.i.d. (que no es exactamente lo mismo que el SRS).
Puede fingir aproximadamente un argumento i.i.d. si tiene una buena aproximación para la cola de su población, y si tiene un diseño lo suficientemente simple (SRSWR o SRSWOR con una fracción de muestreo insignificante).