4 votos

Ruido en los datos de regresión

¿Cómo puedo comparar qué distribución tiene más ruido que la otra? Si por ejemplo genero unos datos, ¿cómo sé que tienen un gran porcentaje de ruido? Aquí tengo un pequeño código de ejemplo que genera dichos datos:

set.seed(188)
n=100
p=60
x=matrix(rnorm(n*p, mean=1, sd=1), nrow=n, ncol=p)
beta=matrix(c(rep(1,20), rep(0,40)), nrow=p, ncol=1)
y=x%*%beta+rnorm(n=n, mean=0, sd=2)

¿Cómo puedo saber si hay poco o mucho ruido en estos datos? Si cambio la derivación estándar a 10, ¿tengo entonces ruido alto o pequeño? ¿Hay alguna forma intuitiva de decir si los datos tienen mucho o poco ruido?

1 votos

@Hack-R Puedo cambiar el ejemplo añadiendo más filas que columnas, esto no es muy importante. Lo que más me interesa saber es en relación a y ¿cuándo puedo decir que he añadido mucho ruido? Cuando añado rnorm(n=n, mean=0, sd=2) o cuando añado : rnorm(n=n, mean=0, sd=21) ?

0 votos

@Hack-R pero añado el término de ruido $\epsilon =rnorm(n=n, mean=0, sd=2)$ ¡a y no a x! ¿No debería haber una relación con y ?

5voto

ytk Puntos 106

Mi respuesta es sencilla y utiliza código. Espero que alguien venga a dar una mejor respuesta usando ecuaciones y lenguaje estadístico para explicarlo adecuadamente.

El ruido es una variación en Y y X que no está relacionada. Si Y se explica perfectamente por X, no hay ruido. La introducción de heterogeneidad no observada en Y o de variación no relacionada en X hace que el ajuste del modelo sea menos que perfecto, lo que significa que hay ruido.

set.seed(188)
n=100
p=60
x=matrix(rnorm(n*p, mean=1, sd=1), nrow=n, ncol=p)
beta=matrix(c(rep(1,20), rep(0,40)), nrow=p, ncol=1)
y=x%*%beta

# 100% of variation in Y is explained by X
summary(lm(y~x))
Residual standard error: 5.334e-15 on 39 degrees of freedom
Multiple R-squared:      1,   Adjusted R-squared:      1 
F-statistic: 1.23e+30 on 60 and 39 DF,  p-value: < 2.2e-16
# Now we introduce noise, aka unexplained heterogeneity
y=x%*%beta+rnorm(n=n, mean=0, sd=2)
summary(lm(y~x))

# and there's a lower R-squared and Adjusted R-Squared
Residual standard error: 2.154 on 39 degrees of freedom
Multiple R-squared:  0.9228,  Adjusted R-squared:  0.8041 
F-statistic: 7.772 on 60 and 39 DF,  p-value: 4.047e-10

2 votos

Así que esto significa que si tengo una baja $R^2$ Tengo más ruido en los datos, ¿verdad?

2 votos

@Ville Correcto. Donde definimos ruido como perturbaciones aleatorias de las variables explicativas o heterogeneidad no observada en la variable de resultado.

3 votos

Buena respuesta práctica. Creo que esto plantea naturalmente un interesante problema fundamental en la modelización estadística de los fenómenos de palabras reales: es muy difícil saber si la precisión de un modelo está limitada por la aleatoriedad fundamental o por haber captado entradas insuficientes y utilizar una estructura de modelización subóptima.

1voto

Jared Kells Puntos 1604

Creo que en el aprendizaje automático tiene más sentido hablar de la varianza del modelo que del ruido dentro de las variables. Vemos los efectos del ruido en los datos de entrenamiento como un factor que influye en el rendimiento del modelo, pero en la mayoría de los casos no es necesario cuantificar el ruido. Explicaré por qué:

El ruido es una expresión de la física y describe (en general) una perturbación con un espectro amplio e inespecífico. Hay muchas formas diferentes de ruido según su origen o su comportamiento estadístico. Por ejemplo, el ruido blanco tiene un espectro de densidad de potencia constante en una zona espectral definida. En este sentido, se puede medir simplemente el ruido, si se sabe lo que se busca. Para cuantificar el ruido hay que saber con qué se compara. Una forma de encontrar la señal en los datos.

Un ejemplo : Digamos que tienes medidas de las alturas de las personas en [m] y pesos en [kg] . Se quiere construir un modelo para predecir la [kg] de la [m] datos. Si sólo tienes las mediciones en bruto, no sabes qué es la señal y qué es el ruido. Aun así, puedes construir un modelo. Estará influenciado por el ruido tanto en la [m] y el [kg] conjunto. Con este modelo puede calcular el error de entrenamiento y de prueba para cuantificar la varianza de su modelo. Sin embargo, eso no le dice mucho sobre el ruido en cada uno de los conjuntos de datos. Sin embargo, le dice lo bien que las variables se explican entre sí.

¿Cómo cuantificar el ruido en este ejemplo? Si se repite el experimento 100 veces dentro de un marco de tiempo en el que se pueda suponer que las alturas y pesos de las personas no cambiaron significativamente (tal vez en un día). Descubres que las mediciones pueden seguir siendo diferentes entre sí (incluso para una sola persona) debido a diversos factores como las posturas de las personas, las lecturas inexactas, etc. Ahora, se traza un histograma y se comprueba que la variación sigue una distribución normal. Suponemos que la altura real se aproxima a la media de todas las mediciones. Ahora ya sabes cuál es tu señal, por ejemplo 1.81 para una persona que es 1.81m alto. Por último, se calcula la varianza o el error estándar. Ahora, has cuantificado el ruido height = 1.81 +/- 0.01 normalizado por [m] . Reflejando un error de 1cm en promedio. Sí, una mayor desviación significa mayor ruido.

En efecto, se construye un filtro de ruido utilizando los valores medios. En algunos casos, el rendimiento del modelo aumenta significativamente utilizando dicho filtro. Aunque con suficientes datos de entrenamiento, el modelo puede aprender el sobre los factores de ruido implícitamente. Pero esa es una discusión diferente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X