9 votos

Pruebas de permutación para el aprendizaje automático: ¿permutar todo el conjunto o sólo el conjunto de entrenamiento?

Ojala y Garriga (2010) [Journal of Machine Learning Research 11 (2010) 1833-1863] mencionan dos pruebas de permutación para el aprendizaje automático: la prueba uno para evaluar si un clasificador ha aprendido algo mejor que la adivinación aleatoria. Según tengo entendido, la idea es permutar las etiquetas de las clases y realizar el aprendizaje automático k número de veces y comparar con el rendimiento del modelo original para obtener un p valor.

La pregunta es sencilla: si utilizo la validación cruzada, ¿debo permutar todo el conjunto de datos antes de entrar en el entrenamiento/prueba (por pliegue) o debo permutar sólo los datos de entrenamiento de la validación cruzada (dentro de cada pliegue) y dejar intactos los datos de prueba? (Según tengo entendido, hay que permutar las etiquetas de clase de todos los datos y luego realizar la validación cruzada).

4voto

Thieme Hennis Puntos 31

Hay pocas cosas que desempacar aquí. El objetivo de las pruebas de permutación es obtener una distribución nula para su estadística de prueba permutando etiquetas y repitiendo el procedimiento muchas veces.

Su estadística de prueba es, por ejemplo, la precisión media, y su procedimiento es CV. Así que debería permutar las etiquetas (todas las etiquetas, porque todas las etiquetas entran en el procedimiento) y luego dividir los datos en pliegues y ejecutar CV.

Si se permuta sólo el conjunto de entrenamiento, entonces no se obtienen nulos válidos, porque no hay aleatoriedad en las etiquetas de los resultados. Si permuta los datos sólo en el conjunto de pruebas, no será válido porque no tendría en cuenta la dependencia entre los pliegues de CV, que es la razón de hacer pruebas de permutación y no sólo una prueba binomial.

Hay algunas advertencias.

Si realiza la división del CV de forma aleatoria, también puede simplemente permutar los datos primero y luego continuar con el CV.

Si su división del CV se realiza de forma que cada pliegue tenga la misma proporción de etiquetas de cada clase o que los pliegues estén equilibrados en función de las mismas otras variables, entonces tiene que permutar de forma que esto también sea así en sus permutaciones. Por lo general, una manera fácil de hacerlo es permutar primero y luego crear sus divisiones equilibradas.

Si no tiene pliegues aleatorios, sino que ya están dados, por ejemplo, cada pliegue son datos de diferentes ciudades, o diferentes hospitales, o diferentes dispositivos de medición, entonces tiene que permutar dentro de estos pliegues para que las etiquetas del mismo hospital no se permuten con las etiquetas de un hospital diferente.

Es posible que tenga otros "bloques de intercambiabilidad" que no se basen en pliegues, por ejemplo, si tiene diferentes hospitales, pero no divide sus datos por hospitales, entonces debe permutar sus datos dentro de estos bloques, pero no necesariamente dentro de los pliegues.

2voto

Dipstick Puntos 4869

En el momento de la predicción, tiene la $(y_i, \hat y_i)$ pares de las etiquetas reales y las predicciones. Observa que el resultado sería el mismo si permutaras las etiquetas reales $y_i$ y si se permutan las predicciones $\hat y_i$ ya que al permutarlas se rompe el emparejamiento. Así que dicha prueba de permutación crearía la distribución nula en el escenario en el que las predicciones se hicieran al azar, pero la distribución de las predicciones es fijo .

Pero fíjate en lo que dice el periódico:

Un clasificador significativo para la prueba 1 rechaza la hipótesis nula de que las características y las etiquetas son independientes, es decir, que no hay diferencia entre las clases. Si los datos originales contienen dependencia entre los puntos de datos y las etiquetas, entonces: (1) un clasificador clasificador $f$ utilizarán dicha información para lograr una buena precisión en la clasificación, lo que se traduce en una pequeña $p$ -(2) si el clasificador $f$ no es significativo con la prueba 1, $f$ no pudo utilizar la dependencia existente entre los datos y las etiquetas en los datos originales. Por último, si los datos originales no contenían ninguna dependencia real entre los puntos de datos y las etiquetas, todos los clasificadores tendrían un alto $p$ -y la hipótesis nula nunca se rechazaría.

La aplicación de aleatorizaciones en los datos originales es, por tanto, una poderosa manera de entender cómo los diferentes clasificadores utilizan la estructura implícita en los datos, si es que dicha estructura existe. [...]

Menciona "diferentes clasificadores" utilizando la estructura de los datos. Si se permutan los datos completos es otra la pregunta que se responde. Un modelo entrenado en datos con etiquetas permutadas aprende a encontrar correlaciones espurias. Tener un pequeño error de entrenamiento en tal caso le dice cuánto es propenso a sobreajustar. Hay otra diferencia cuando se permutan sólo las etiquetas y se comparan con las predicciones. En el primer caso, se observa la distribución de las predicciones de un único modelo. En el segundo caso, se observa la distribución de las predicciones de diferentes modelos "nulos". Sólo el segundo caso le indica cómo aprende el clasificador la estructura de los datos.

Por último, corrígeme si me equivoco, pero el documento no parece decir nada sobre los datos de entrenamiento y prueba. Parece que describen el entrenamiento del clasificador en un conjunto de datos $D$ y comparando el rendimiento con los conjuntos de datos permutados $D'$ pero esos son los errores de formación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X