20 votos

Alisado: ¿cuándo utilizarlo y cuándo no?

Hay un post bastante antiguo sobre Blog de William Briggs en el que se examinan las dificultades de suavizar los datos y llevar esos datos suavizados al análisis. El argumento clave es el siguiente:

Si, en un momento de locura, se suavizan los datos de las series temporales y se de entrada a otros análisis, ¡aumenta drásticamente la probabilidad de probabilidad de engañarse a sí mismo. Esto se debe a que el suavizado induce señales espurias, es decir, señales que parecen reales para otros métodos de análisis. No importa, ¡estará demasiado seguro de sus resultados finales!

Sin embargo, me cuesta encontrar debates exhaustivos sobre cuándo alisar y cuándo no.

¿Sólo está mal visto suavizar cuando se utilizan esos datos suavizados como entrada para otro análisis o hay otras situaciones en las que no se aconseja el suavizado? A la inversa, ¿hay situaciones en las que se aconseja el suavizado?

2 votos

La mayoría de las aplicaciones del análisis de series temporales suponen algún tipo de suavización, incluso cuando no se describen como tal. El suavizado puede utilizarse como dispositivo exploratorio o de resumen -en algunos campos, es incluso el principal o único método utilizado- o para eliminar características que se consideran molestas o de interés secundario para algún propósito.

4 votos

Descargo de responsabilidad: no he leído toda la entrada del blog citada. No he podido pasar de las erratas elementales ("series temporales", "Monte Carol") y su tono y estilo no eran atractivos. Pero no aconsejaría intentar aprender los principios del análisis de series temporales, o de la estadística en general, a través del blog de nadie.

0 votos

@NickCox De acuerdo, y sobre todo de un blog que parece tener un hacha para moler.

17voto

icelava Puntos 548

Suavizado exponencial es una técnica clásica utilizada en la previsión de series temporales no causales. Siempre que se utilice sólo en caso de previsión y no uses ajustes suavizados en la muestra como entrada a otro algoritmo de minería de datos o estadística, la crítica de Briggs no es aplicable. (En consecuencia, soy escéptico acerca de su uso "para producir datos suavizados para su presentación", como dice la Wikipedia - esto bien puede ser engañoso, al ocultar la variabilidad suavizada).

Este es un libro de texto de introducción a la suavización exponencial.

Y aquí hay un artículo de revisión (de hace 10 años, pero aún relevante).


EDIT: parece que hay algunas dudas sobre la validez de la crítica de Briggs, posiblemente algo influenciado por su embalaje . Estoy totalmente de acuerdo en que el tono de Briggs puede ser abrasivo. Sin embargo, me gustaría ilustrar por qué creo que tiene razón.

A continuación, estoy simulando 10.000 pares de series temporales, de 100 observaciones cada una. Todas las series son ruido blanco, sin correlación alguna. Así que la ejecución de una prueba de correlación estándar debe producir valores p que se distribuyen uniformemente en [0,1]. Y así es (histograma de la izquierda, abajo).

Sin embargo, supongamos que primero suavizamos cada serie y aplicamos la prueba de correlación al alisado datos. Aparece algo sorprendente: como hemos eliminado mucha variabilidad de los datos, obtenemos valores p que son demasiado pequeño . Nuestra prueba de correlación está muy sesgada. Así que estaremos demasiado seguros de cualquier asociación entre las series originales, que es lo que Briggs está diciendo.

La cuestión depende realmente de si utilizamos los datos suavizados para las previsiones, en cuyo caso el suavizado es válido, o si los incluimos como entrada en algún algoritmo analítico, en cuyo caso la eliminación de la variabilidad simulará una mayor certeza en nuestros datos de lo que está justificado. Esta certeza injustificada en los datos de entrada se traslada a los resultados finales y debe tenerse en cuenta, ya que, de lo contrario, todas las inferencias serán demasiado seguras. (Y, por supuesto, también obtendremos intervalos de predicción demasiado pequeños si utilizamos un modelo basado en una "certeza inflada" para la previsión).

n.series <- 1e4
n.time <- 1e2

p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
    A <- rnorm(n.time)
    B <- rnorm(n.time)
    p.corr[ii] <- cor.test(A,B)$p.value
    p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}

par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")

p values

1 votos

Para un buen análisis de las series temporales, considero axiomático que no se muestre ninguna suavidad sin que se muestren también los datos brutos.

1voto

quux Puntos 4878

Afirmar que el suavizado es inadecuado para un análisis de modelización lo condena a tener un error cuadrático medio más alto de lo que podría. El error cuadrático medio o MSE puede descomponerse en tres términos, un cuadrado de un valor llamado ``sesgo'', una varianza y algún error irreducible. (Esto se muestra en las citas de abajo.) Los modelos excesivamente suavizados tienen un sesgo alto, aunque tengan una varianza baja, y los modelos demasiado aproximados tienen varianzas altas y un sesgo bajo.

Esto no tiene nada de filosófico. Es una caracterización matemática. No depende del carácter del ruido ni del carácter del sistema.

Ver:

http://scott.fortmann-roe.com/docs/BiasVariance.html

https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf

http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (Esto tiene la derivación de la descomposición).

http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regression.pdf (Blei hace lo mismo de otra manera, y aporta lo que ocurre cuando se intenta predecir).

La estadística clásica casi siempre insiste en las estimaciones insesgadas. En 1955, el estadístico Charles Stein de Stanford demostró que había combinaciones de estimadores insesgados que tenían un MSE más bajo para casos especiales importantes, en particular lo que se denominó los ESTIMADORES DE JAMES-STEIN. Bradley Efron escribió un texto muy accesible sobre esta revolución en el conocimiento: http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X