La razón por la que "desearías tener un millón de observaciones" suele ser que quieres utilizar los datos para inferir algo que aún no sabes. Por ejemplo, para ajustar un modelo o hacer predicciones. En este contexto, el desigualdad en el tratamiento de datos implica que, por desgracia, simular datos adicionales es menos útil de lo que cabría esperar (pero esto no significa que sea inútil).
Para ser más concretos $Y$ sea un vector aleatorio que represente cantidades desconocidas sobre las que nos gustaría aprender, y que $X$ sea un vector aleatorio que represente los datos. Supongamos ahora que simulamos nuevos datos utilizando el conocimiento aprendido de los datos originales. Por ejemplo, podríamos ajustar una distribución de probabilidad a los datos originales y, a continuación, muestrear a partir de ella. Sea $\tilde{X}$ sea un vector aleatorio que represente los datos simulados, y $Z = [X, \tilde{X}]$ representan el conjunto de datos aumentado. Dado que $Z$ se generó a partir de $X$ tenemos que $Z$ y $Y$ son condicionalmente independientes, dado $X$ . Es decir:
$$p(x,y,z) = p(x,y) p(z \mid x)$$
Según la desigualdad en el tratamiento de datos, la información mutua entre $Z$ y $Y$ no puede ser superior al comprendido entre $X$ y $Y$ :
$$I(Z; Y) \le I(X; Y)$$
Desde $Z$ contiene $X$ En realidad, se trata de una igualdad. En cualquier caso, esto significa que, independientemente de cómo tratemos los datos (incluso utilizándolos para simular nuevos datos), es imposible obtener información adicional sobre la cantidad que nos interesa (aparte de la que ya contienen los datos originales).
Pero hay una advertencia interesante. Tenga en cuenta que el resultado anterior se mantiene cuando $\tilde{X}$ se genera en función de $X$ . Si $\tilde{X}$ también se basa en alguna fuente externa $S$ entonces puede ser posible obtener información adicional sobre $Y$ (si $S$ contiene esta información).
Teniendo en cuenta lo anterior, es interesante observar que el aumento de datos puede funcionar bien en la práctica. Por ejemplo, como mencionó Haitao Du, cuando se entrena un clasificador de imágenes, a veces se utilizan copias transformadas aleatoriamente de las imágenes de entrenamiento (por ejemplo, traslaciones, reflejos y distorsiones diversas). Esto anima al algoritmo de aprendizaje a encontrar un clasificador que sea invariable a estas transformaciones, aumentando así el rendimiento. ¿Por qué funciona? Esencialmente, estamos introduciendo un sesgo inductivo útil (similar en efecto a una prioridad bayesiana). Sabemos que a priori que la función verdadera debe ser invariante, y las imágenes aumentadas son una forma de imponer este conocimiento. Desde otra perspectiva, esta a priori el conocimiento es la fuente adicional $S$ que he mencionado antes.