Un tema estrechamente relacionado es el de desigualdades de concentración que te dan un límite (del tipo que estás buscando) que también depende del número de muestras (entre otras cosas). Concretamente, el concepto de Complejidad Rademacher es una herramienta estándar para abordar este tipo de problemas. La complejidad de Rademacher puede entenderse como una prueba de permutación, en la que se cambian las etiquetas aleatoriamente. Cuando se aplica al problema de estimar la media, el límite indica la probabilidad de acercarse a la media real por azar (la concentración de las muestras en torno a la media y, por tanto, la estabilidad de las estimaciones basadas en diferentes muestras).
Para ser más específicos, para una muestra, $X=(x_{i})$ de tamaño $l$ extraídos i.i.d. de una distribución de probabilidad, $D$ y para una clase de función de valor real, $F$ con dominio $X$ El empírico La complejidad de Rademacher es la variable aleatoria definida como, $$ \hat{R}_{l}(F) = E_{\sigma}\left[sup_{f \in F}\left|\frac{2}{l}\sum_{i=1}^{l}\sigma_{i}f(x_{i})\right|X\right] $$ donde $\sigma = (\sigma_{1},...,\sigma_{l})$ son uniformes independientes $\pm1$ -variables aleatorias valoradas. La complejidad de Rademacher es, $$ R_{l}(F) = E_{S \sim D}[\hat{R}_{l}(F)] = E_{S\sigma}\left[sup_{f \in F}\left|\frac{2}{l}\sum_{i=1}^{l}\sigma_{i}f(x_{i})\right|X\right] $$
El sup significa que busca la mayor correlación posible con el ruido aleatorio. Ahora bien, este concepto es relevante por el siguiente teorema,
Dadas las condiciones anteriores, suponiendo que $F$ es la clase de mapeos de $X$ al intervalo $[0,1]$ y que $(z_{i})$ sea una muestra de tamaño $l$ . Si arreglas $\delta \in (0,1)$ entonces con probabilidad $1-\delta$ sobre extracciones aleatorias de tamaño $l$ cada $f \in F$ satisface,
$$ E[f(z)] \leq \hat{E}[f(z)] + R_{l}(F) + \sqrt{\frac{ln(2/\delta)}{2l}} \leq \hat{E}[f(z)] + \hat{R}_{l}(F) + 3\sqrt{\frac{ln(2/\delta)}{2l}} $$
Observe que el sombrero se utiliza para indicar la expectativa empírica medida en una muestra concreta.
La idea es encontrar tal familia de f's y utilizar el teorema. Dado que $D$ tiene un soporte compacto, sabe que $(W-E[W])^{2}/R$ está limitada en $[0,1]$ donde $R$ es el radio de la bola.
Utilizando las propiedades de la complejidad de Rademacher y un segundo teorema que le da la complejidad de Rademacher para la predicción lineal (los detalles se pueden encontrar aquí y con todo detalle aquí ), se obtiene el siguiente límite para su probabilidad
$$ \sqrt{\frac{2R^{2}}{l}}\left(\sqrt2 + \sqrt{ln\frac{1}{\delta}}\right) $$
P.D. Acabo de darme cuenta de que te referías a la p-norma. Pero aún así, puedes utilizar la Desigualdad en Khintchine para limitar esa cantidad con la norma 2.
0 votos
Ingenuamente, no espero que haya una respuesta general que dependa sólo de p,d y $\epsilon$ . La respuesta debería depender del comportamiento de la cola de D. Para un ejemplo sencillo, tomemos una distribución normal con media 0 y varianza 0,1 (truncada en 1 y renormalizada) y la distribución uniforme en [-1,1] con d=1
1 votos
Aparentemente, la pregunta se refiere al peor caso posible de todas las distribuciones admitidas en la unidad $\ell_p$ -bola.
0 votos
¿Cuál es el marco de esta pregunta? ¿Una tarea, un trabajo de tesis?
0 votos
Esto parece ser la Ley de los Grandes Números en su forma débil. La pregunta es sobre el comportamiento límite según el teorema. Según el lema de Chebychev, para $d=1$ con un $\delta(n)=s^2/(e^2 n)$ convergencia del límite, con $s^2$ un estimador de la varianza, seguramente existen otros límites para la $n$ comportamiento....
0 votos
Gracias a todos. Esta pregunta apareció en mi investigación: Quiero comparar estimadores obtenidos a partir de muestras iid con un modelo alternativo (Statistical Queries); ahora tengo algunos límites para este último, pero no sé qué se sabe para el primero. Como ha señalado Vitaly, la idea es obtener un límite en el peor de los casos para distribuciones arbitrarias, por lo que los límites que dependen de la varianza son bastante débiles.