Creo que en el aprendizaje automático tiene más sentido hablar de la varianza del modelo que del ruido dentro de las variables. Vemos los efectos del ruido en los datos de entrenamiento como un factor que influye en el rendimiento del modelo, pero en la mayoría de los casos no es necesario cuantificar el ruido. Explicaré por qué:
El ruido es una expresión de la física y describe (en general) una perturbación con un espectro amplio e inespecífico. Hay muchas formas diferentes de ruido según su origen o su comportamiento estadístico. Por ejemplo, el ruido blanco tiene un espectro de densidad de potencia constante en una zona espectral definida. En este sentido, se puede medir simplemente el ruido, si se sabe lo que se busca. Para cuantificar el ruido hay que saber con qué se compara. Una forma de encontrar la señal en los datos.
Un ejemplo : Digamos que tienes medidas de las alturas de las personas en [m]
y pesos en [kg]
. Se quiere construir un modelo para predecir la [kg]
de la [m]
datos. Si sólo tienes las mediciones en bruto, no sabes qué es la señal y qué es el ruido. Aun así, puedes construir un modelo. Estará influenciado por el ruido tanto en la [m]
y el [kg]
conjunto. Con este modelo puede calcular el error de entrenamiento y de prueba para cuantificar la varianza de su modelo. Sin embargo, eso no le dice mucho sobre el ruido en cada uno de los conjuntos de datos. Sin embargo, le dice lo bien que las variables se explican entre sí.
¿Cómo cuantificar el ruido en este ejemplo? Si se repite el experimento 100 veces dentro de un marco de tiempo en el que se pueda suponer que las alturas y pesos de las personas no cambiaron significativamente (tal vez en un día). Descubres que las mediciones pueden seguir siendo diferentes entre sí (incluso para una sola persona) debido a diversos factores como las posturas de las personas, las lecturas inexactas, etc. Ahora, se traza un histograma y se comprueba que la variación sigue una distribución normal. Suponemos que la altura real se aproxima a la media de todas las mediciones. Ahora ya sabes cuál es tu señal, por ejemplo 1.81
para una persona que es 1.81m
alto. Por último, se calcula la varianza o el error estándar. Ahora, has cuantificado el ruido height = 1.81 +/- 0.01
normalizado por [m]
. Reflejando un error de 1cm
en promedio. Sí, una mayor desviación significa mayor ruido.
En efecto, se construye un filtro de ruido utilizando los valores medios. En algunos casos, el rendimiento del modelo aumenta significativamente utilizando dicho filtro. Aunque con suficientes datos de entrenamiento, el modelo puede aprender el sobre los factores de ruido implícitamente. Pero esa es una discusión diferente.
1 votos
@Hack-R Puedo cambiar el ejemplo añadiendo más filas que columnas, esto no es muy importante. Lo que más me interesa saber es en relación a
y
¿cuándo puedo decir que he añadido mucho ruido? Cuando añadornorm(n=n, mean=0, sd=2)
o cuando añado :rnorm(n=n, mean=0, sd=21)
?0 votos
@Hack-R pero añado el término de ruido $\epsilon =rnorm(n=n, mean=0, sd=2)$ ¡a y no a x! ¿No debería haber una relación con
y
?