3 votos

Combinar muchos conjuntos de datos para aumentar la confianza

Tengo unos cuantos (5-6) conjuntos de datos, cada uno es una función del tiempo, con el lapso de tiempo igual entre los conjuntos de datos. Estos conjuntos de datos son todas las estadísticas de diversas perspectivas de algo (las particiones de un gráfico), y estoy tratando de encontrar puntos en el tiempo que muestran cambios interesantes a través de los diferentes conjuntos de datos. Normalmente, estas características interesantes son mínimos locales, pero no siempre es así.

Así, por ejemplo, el conjunto de datos1. es la varianza de alguna medida y en el momento 0,4 tiene un mínimo local. el conjunto de datos2. es el número de máximos y también tiene un mínimo local en 0,4.

El problema es que, en realidad, a veces un mínimo aparece en todos los conjuntos de datos y otras veces sólo en uno o en unos pocos. Así que mi objetivo es básicamente combinar la información de todos los conjuntos de datos para aumentar mi confianza en que un mínimo local en un momento determinado, es un punto interesante y significativo.

Un método sencillo sería simplemente contar el número de conjuntos de datos que tienen un mínimo local en ese momento y utilizar algún valor de umbral, por encima del cual defino los mínimos como significativos. Pero me pregunto si hay formas más inteligentes, es decir, formas que puedan ver qué conjuntos de datos son más robustos y fiables, etc.

2voto

jldugger Puntos 7490

Voy a esbozar un enfoque que no requiere ningún "entrenamiento"; es usted quien debe determinar su utilidad en este caso.

Un modelo hipotético simple (y no paramétrico) es que todos los conjuntos de datos son independientes, que ninguno tiene una tendencia y que sus variaciones de un período de tiempo a otro son mutuamente independientes. Esto implica que la probabilidad con la que dos conjuntos de datos preespecificados tienen simultáneamente mínimos locales sería igual al producto de las probabilidades con las que cada uno tiene mínimos locales, con generalizaciones obvias (pero más complejas) a tres o más conjuntos de datos preespecificados (que ilustro más adelante). En particular, se puede estimar el probabilidades de los mínimos locales mediante su observación frecuencias en cada conjunto de datos. A partir de ellos se pueden calcular las probabilidades de mínimos locales simultáneos entre 2, 3 o, en general, $k$ o más de los conjuntos de datos. Cuando la probabilidad de $k$ o más es tan baja que es poco probable que ocurra durante el lapso de tiempo que ha observado, puede tomar la ocurrencia simultánea de $k$ o más mínimos locales para ser "significativos" en relación con esta hipótesis nula de independencia.

Por ejemplo, supongamos que tenemos cinco conjuntos de datos, cada uno de ellos observado 100 veces, con mínimos locales que aparecen 8, 9, 10, 11 y 12 veces en ellos. Los cinco exhibirían simultáneamente un mínimo local (8/100) * (9/100) * (10/100) * (11/100) * (12/100) = 0,00095% de las veces, por lo que incluso dentro de 100 observaciones el número esperado de mínimos simultáneos (de 100 * 0,00095% = 0,00095) es tan ridículamente bajo que cinco mínimos simultáneos seguramente serían una evidencia significativa de un punto "interesante".

Los mínimos locales entre los cuatro primeros conjuntos de datos (no acompañados de un mínimo local en el quinto) tendrían una frecuencia esperada de 100 * (8/100) * (9/100) * (10/100) * (11/100) * ((100-12)/100) = .00697. Del mismo modo, podríamos calcular la frecuencia esperada de los mínimos locales entre las demás combinaciones de cuatro de los conjuntos de datos. La frecuencia total de exactamente cuatro mínimos simultáneos es 0,04375. Sumado a la frecuencia de cinco mínimos simultáneos, se obtiene 0,0447 como número esperado de veces que se observan cuatro o cinco mínimos locales simultáneos en 100 observaciones: sigue siendo bastante raro y, por tanto, significativo si aparece. Un cálculo similar para las diez combinaciones de tres mínimos locales simultáneos muestra que cabría esperar al menos tres mínimos locales 0,8452 veces de cada 100. Por lo tanto, observar uno o dos eventos de este tipo no sería inusual y no se podría considerar significativo. Evidentemente, el número esperado de mínimos bidireccionales sería considerable (habría que esperar ver unos 40 de cada 100) y es poco probable que se considere significativo alguno de ellos.

El ejemplo ilustra cómo se pueden calcular los umbrales de significación en términos del número de mínimos locales simultáneos para cualquier número de conjuntos de datos observados durante cualquier número de períodos.

Se puede dar una cuenta más precisa de la situación mediante la distribución de Poisson. Tomemos la ocurrencia de cuatro o más mínimos simultáneos en el ejemplo. Bajo la hipótesis nula (de conjuntos de datos independientes), esto es lo suficientemente raro como para que el recuento real tenga una distribución de Poisson con una expectativa de 0,8452. Esto implica que hay un 94,59% de posibilidades de observar dos o menos eventos de este tipo. Por lo tanto, si se observan tres o más mínimos de tres, cuatro o cinco, se podría considerar como una prueba significativa de falta de independencia (con un 95% de confianza). Sin embargo, en este caso no se podría señalar un momento específico que sea significativo; sólo se podría decir que hay más mínimos triples de los que debería haber. Cualquiera de ellos sería un candidato razonable para un momento "interesante", pero habría que seguir investigando antes de estipular que cualquier particular una de estas veces demuestra realmente un alejamiento de la independencia.

Este modelo puede o no ser apropiado para sus datos. Puede comprobarlo examinando los datos. Si sus datos tienen tendencias o presentan correlación serial, necesitará una versión más compleja de este modelo. No obstante, el mismo tipo de análisis puede ayudarle a decidir lo que constituye una sicigia "interesante" o "significativa" de los mínimos locales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X