20 votos

Siendo realistas, ¿se cumple el supuesto de i.i.d. en la gran mayoría de las tareas de aprendizaje supervisado?

La hipótesis i.i.d. establece:

Se nos da un conjunto de datos, $\{(x_i,y_i)\}_{i = 1, \ldots, n}$ cada dato $(x_i,y_i)$ se genera de forma independiente e idénticamente distribuida .

Para mí, físicamente esto significa que podemos imaginar que la generación de $(x_i,y_i)$ no afecta a $(x_j,y_j)$ , $j \neq i$ y viceversa.

Pero, ¿es esto cierto en la práctica?

Por ejemplo, la tarea más básica de aprendizaje automático es la predicción en el conjunto de datos MNIST. ¿Hay alguna forma de saber si MNIST se generó de forma i.i.d.? Lo mismo ocurre con otros miles de conjuntos de datos. ¿Cómo puede saber "cualquier profesional" cómo se ha generado el conjunto de datos?

A veces también veo que la gente menciona barajar los datos para que la distribución sea más independiente o aleatoria. La mezcla de datos, ¿produce algún beneficio tangible en comparación con un conjunto de datos no mezclados?

Por ejemplo, supongamos que creamos un conjunto de datos MNIST "secuencial" que contiene dígitos dispuestos en una secuencia creciente 1,2,3,4,5,6, obviamente, el conjunto de datos no se generó de forma independiente. Si se genera 1, el siguiente debe ser 2. Pero, ¿tiene alguna diferencia el entrenamiento de un clasificador en este conjunto de datos en comparación con un conjunto de datos barajado?

Sólo algunas preguntas básicas.

22voto

Aaron Puntos 36

El significado operativo de la condición IID viene dado por la célebre "teorema de la representación" de Bruno de Finetti (que, en mi humilde opinión, es una de las mayores innovaciones de la teoría de la probabilidad jamás descubiertas). Según este brillante teorema, si tenemos una secuencia $\mathbf{X}=(X_1,X_2,X_3,...)$ con distribución empírica $F_\mathbf{x}$ si los valores de la secuencia son intercambiable entonces tenemos:

$$X_1,X_2,X_3, ... | F_\mathbf{x} \sim \text{IID } F_\mathbf{x}.$$

Esto significa que la condición de intercambiabilidad de una secuencia infinita de valores es la condición operativa necesaria para que los valores sean independientes e idénticamente distribuidos (condicional en alguna función de distribución subyacente). Este teorema puede aplicarse tanto a la estadística bayesiana como a la clásica (véase O'Neill 2009 para una discusión más detallada), y en este último caso, la distribución empírica se trata como una "constante desconocida", por lo que solemos abandonar la notación condicionante. Entre otras cosas, este teorema aclara el requisito de "ensayos repetidos" en la definición frecuentista de probabilidad.

Como ocurre con muchos otros resultados probabilísticos, el "teorema de la representación" se refiere en realidad a una clase de teoremas que se aplican en varios casos diferentes. Puede encontrar un buen resumen de los distintos teoremas de representación en Kingman (1978) y Ressel (1985) . La versión original, debida a de Finetti, establecía esta correspondencia sólo para secuencias binarias de valores. Posteriormente se extendió a la versión más general que es la más utilizada (y que corresponde a la versión mostrada anteriormente), por Hewitt y Savage (1955) . Este último teorema de representación se denomina a veces teorema de de Finetti-Hewitt-Savage, ya que es su extensión la que da toda la potencia al teorema. Existe otra extensión útil de Diaconis y Freedman (1980) que establece un teorema de representación para los casos de intercambiabilidad finita --- a grandes rasgos, en este caso los valores son "casi IID" en el sentido de que hay una diferencia acotada de probabilidades entre las probabilidades reales y una aproximación IID.

Como señalan otras respuestas en este hilo, la condición IID tiene varias ventajas en términos de conveniencia matemática y simplicidad. Aunque no lo considero una justificación del realismo, es sin duda una ventaja accesoria de la estructura de este modelo, y habla de la importancia de los teoremas de representación. Estos teoremas proporcionan una base operativa para el modelo IID y demuestran que basta con suponer la intercambiabilidad de una secuencia infinita para obtener este modelo. Así, en la práctica, si se quiere saber si una secuencia de valores es IID, basta con preguntarse: "Si tomara cualquier conjunto finito de valores de esta secuencia, ¿cambiaría su medida de probabilidad si cambiara el orden de esos valores?". Si la respuesta es negativa, entonces tenemos una secuencia intercambiable y, por tanto, se cumple la condición IID.

10voto

Sí, las muestras del conjunto de datos pueden no ser completamente iid, pero la suposición está presente para facilitar la modelización. Para maximizar la verosimilitud de los datos (en casi todos los modelos esto forma parte explícita o implícitamente de la optimización), es decir $P(\mathcal{D}|\theta)$ , sin la suposición iid, tendríamos que modelar la dependencia entre las muestras de datos, es decir, la distribución conjunta y no podrás escribir rápidamente lo siguiente y maximizar: $$P(\mathcal{D}|\theta)=\prod_{i=1}^nP(X_i|\theta)$$

Normalmente, con muchas muestras (variables aleatorias), las ligeras dependencias entre pequeños conjuntos de muestras serán insignificantes. Y, al final, se obtienen resultados similares (suponiendo que la dependencia se modele correctamente). Por ejemplo, en Naive Bayes, no necesariamente las muestras, sino las características/palabras son seguramente dependientes. Forman parte de la misma frase o párrafo, están escritas por la misma persona, etc. Sin embargo, modelizamos como si fueran independientes y acabamos con modelos bastante buenos.

El barajado es otra consideración. Algunos algoritmos no se ven afectados por el barajado. Pero los algoritmos que utilizan el descenso gradiente probablemente se vean afectados, en concreto las redes neuronales, porque no las entrenamos indefinidamente. Por ejemplo, si se alimenta la red con todos los $1$ al principio, y luego $2$ etc, irás hasta el lugar donde esos $1$ 's te llevan, a continuación, tratar de volver a la dirección donde $2$ y luego $3$ etc. Puede que acabe en mesetas y le cueste volver a otras direcciones, etc. Barajar le permite ir en todas las direcciones posibles un poco, sin profundizar más y más en alguna dirección dedicada.

4voto

John Madden Puntos 320

Para mí, la noción de lo que realmente es la i.i.d. y por qué es, en muchos casos, una necesario tiene más sentido desde la perspectiva bayesiana. En este caso, en lugar de considerar los datos como i.i.d. en sentido absoluto, se piensa en ellos como condicionalmente i.i.d. parámetros del modelo dados .

Por ejemplo, consideremos un modelo normal desde la perspectiva bayesiana. Especificamos cómo creemos que se muestrearon los datos dados los parámetros:

$X_i|\mu, \sigma^2 \stackrel{iid}{\sim} N(\mu, \sigma^2)$ para $i \in \{1, \ldots, n\}$ ,

y expresar una creencia previa sobre esos parámetros:

$\mu \sim P(\mu)$ ; $\sigma^2 \sim P(\sigma^2)$ (la prioridad exacta utilizada no es importante).

La independencia condicional tiene que ver con el hecho de que la probabilidad se factoriza:

$P(X_1, \ldots, X_n|\mu, \sigma^2) = P(X_1|\mu, \sigma^2)\ldots P(X_n|\mu, \sigma^2)$ .

Pero esto no es lo mismo que decir que la distribución marginal sobre los datos implícita en nuestro modelo se factoriza:

$P(X_1, \ldots, X_n) \neq P(X_1)\ldots P(X_n)$ .

Y, efectivamente, en nuestro caso concreto de la distribución normal, al obtener la distribución marginal sobre los datos integrando los parámetros se obtiene una distribución conjunta que es no independiente en general, cuya forma dependerá de los priors que haya especificado.

Es decir: dos observaciones $X_i$ y $X_j$ no son independientes; sólo son condicionalmente independientes dados los parámetros del modelo (en notación matemática, $X_i \perp \!\!\! \perp X_j | \mu, \sigma^2$ pero $X_i \not\perp \!\!\! \perp X_j$ ).

Una forma útil de pensar en lo que significa la independencia de dos variables aleatorias es que no proporcionan ninguna información la una sobre la otra. Sería completamente absurdo decir que dos puntos de datos no proporcionan ninguna información el uno sobre el otro: por supuesto, los datos están relacionados de alguna manera. Pero al hacer que los datos sean condicionalmente independientes dados unos parámetros, estamos diciendo que nuestro modelo codifica toda la relación entre los datos: que "no falta nada" en nuestro modelo.

Efectivamente, una suposición i.i.d. es una suposición de que nuestro modelo es correcto: si nos falta algo en nuestro modelo, los datos contendrán información sobre los demás más allá de lo que está codificado en nuestro modelo. Si sabemos qué es, debemos incluirlo en nuestro modelo y, a continuación, hacer una suposición i.i.d. Si no lo sabemos, no tenemos suerte. Pero que hayamos especificado mal el modelo es un riesgo constante e inevitable.

Y, por último, una breve nota: a primera vista, este marco que he descrito no parecería ajustarse a modelos como los espaciotemporales, en los que tenemos una dependencia explícita entre los datos codificada en el modelo. Sin embargo, en todos los casos de este tipo que conozco, el modelo puede reparametrizarse como uno con datos i.i.d. y variables latentes adicionales (posiblemente correlacionadas).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X