5 votos

¿Métodos de muestreo para la revisión de muchas horas de vídeo de vigilancia?

Tengo curiosidad por saber si alguien tiene experiencia o puede indicarme algunos recursos sobre la metodología de muestreo para revisar las grabaciones de vídeo de vigilancia. Por ejemplo, digamos que tenemos 6480 horas de vídeo (3 meses por 30 días x 24 horas x 3 cámaras) y nos interesa caracterizar alguna actividad que se produce (no necesariamente enumerar). Digamos que sabemos que los individuos que realizan esta actividad tienden a estar presentes por la noche y es más probable que estén presentes durante el segundo mes que el primero o el tercero. La actividad puede darse varias veces a lo largo del periodo de seguimiento, por lo que no se trata de capturarla una sola vez, ni tampoco nos interesa capturar todos los casos de la actividad. Sólo queremos tomar una muestra suficiente para poder caracterizar a la población que realiza esta actividad. A modo de ejemplo, digamos que la actividad se produce 1.000 veces durante el periodo de seguimiento (siendo más frecuente por la noche y durante la mitad del periodo de seguimiento) y dura entre 10 y 30 minutos por instancia. La actividad puede solaparse, es decir, varios individuos pueden, aunque no necesariamente, estar realizando la actividad al mismo tiempo en la pantalla. ¿Cómo podemos muestrear este material (por ejemplo, seleccionando entre el 10 y el 20 por ciento del material total) para poder maximizar el número de instancias que observamos sin desperdiciar el trabajo de revisar todo el material?

EDIT: Como se ha aludido en algunos de los comentarios, en realidad hay dos cosas en juego. La primera es que quiero muestrear el material de tal manera que maximice la posibilidad de que una persona esté presente en la pantalla. Dado que una persona está presente puede estar realizando alguna actividad, lo que quiero hacer es caracterizar la gama de comportamientos. Para ello quiero ser capaz de ver suficientes individuos como para poder decir que he visto una selección representativa de sus comportamientos. Tengo datos sobre la primera parte del problema. Sin revelar demasiado, déjame darte esos datos reales para que juegues con ellos. Lo que sigue son los recuentos totales de individuos vistos en las grabaciones de una cámara cercana al lugar que me interesa. He resumido estos recuentos primero por hora y segundo por día del año. Por ejemplo, a lo largo de cinco años, se vieron 1005 individuos en la hora 0 (de medianoche a la 1:00 AM) durante los tres meses de seguimiento. Del mismo modo, a lo largo de cinco años, se vieron 29 individuos en el día 182 (a cualquier hora). Mi idea es utilizar estos recuentos para obtener pesos para una muestra aleatoria ponderada. Como nota al margen, si estuviera interesado en estimar el número total de individuos que vería si viera todas las filmaciones me doy cuenta de que puedo utilizar un estimador de Horvitz-Thompson.

tab.24<-data.frame(hour<-seq(0,23, 1), 
count<-c(1005, 851, 750, 562, 311, 176, 132,  83,  99,  93,  87,  83,
89,  82,  83, 114, 187, 148, 152, 199, 398, 767, 1002, 1100))
tab.day<-data.frame(doy<-seq(182,273), 
count<-c(29, 19, 18, 31, 25, 24, 44, 49, 54, 42, 38, 75, 71, 62, 71, 96,
142, 157, 117, 77, 159, 107, 104, 126, 134, 91, 146, 192, 223, 181, 201,
210, 178, 128, 203, 204, 250, 176, 243, 196, 213, 187, 200, 167, 160, 141,
120, 162, 178, 171, 145, 103, 99, 75, 114, 148, 140, 81, 69, 77, 49, 59, 44,
54, 58, 51, 46, 47, 54, 49, 35, 35, 39, 46, 46, 60, 20, 22, 37, 18, 22, 28,
38, 29, 30, 17, 22, 10, 18, 9, 15,3))

1voto

Kage Puntos 21

Primero vamos a suponer que realmente quiere maximizar la incidencia de esta actividad en su muestra. Supongamos también que el clip más pequeño que estamos dispuestos a muestrear es fijo, digamos 1 hora para simplificar. Para enmarcar esto en alguna teoría probabilística, sería bueno poder asumir la independencia entre el número de personas que hacen esta actividad en cualquier intervalo, lo que por supuesto no es razonable ya que si alguien empieza en los últimos minutos de una hora, lo hará en la siguiente. Así que, si no le importa, aproximaré el problema diciendo que queremos capturar el mayor número de personas empezando por esta actividad como sea posible. Además, ¿es razonable el supuesto de independencia en su caso?

A partir de este conjunto de supuestos, nuestra única elección es qué hora de metraje veremos a continuación. Por lo tanto, la única relación que podemos explotar es la relación entre el tiempo y la tasa de esta actividad. Así que si modelamos esta tasa como una función de la hora, entonces hora del día o día de la semana o es una fiesta etc. son nuestras únicas características reales (a menos que puedas extraer características del vídeo como el brillo medio...)

Para continuar con este problema yo miraría dos cosas. En primer lugar, la distribución de Poisson, que es la distribución utilizada para modelar las tasas de eventos independientes. En segundo lugar, el problema del bandido multiarmado. Esencialmente, piense en su metraje como una máquina tragaperras, y cada hora del día como una palanca. El pago son las instancias capturadas. Cuando te sientas en la máquina tragaperras puedes empezar con algunas creencias (como parece que haces) en forma de un previo (probablemente gamma) de qué palanca es la mejor, o no tener ninguna creencia. Pero cada vez que juegas, actualizas tus creencias, informando de tu próximo sorteo.

1voto

Phill Puntos 482

Es muy interesante pensar en el muestreo para resolver este problema. Yo sugeriría muestreo estratificado utilizando 4 estratos:

  1. Día, 1er y 3er mes
  2. Día, 2º mes
  3. Noche, 1er y 3er mes
  4. Noche, 2º mes

Sobre las asignaciones dentro de cada estrato, ¿tiene una idea (aunque sea aproximada) de cuántas actividades de este tipo se producen dentro de cada estrato? Si la tiene, puede utilizar la asignación proporcional (que proporciona una precisión óptima en los estimadores dentro de cada estrato). Por ejemplo, si sabe que cuando observa 100 actividades, éstas se dividen así :

  1. 5
  2. 10
  3. 35
  4. 50

Entonces, si quiere tomar una muestra de 100 horas de 4.000, puede extraer 4 muestras aleatorias simples en cada estrato de la siguiente manera:

  1. 5 horas (de 1000)
  2. 10 horas (de 1000)
  3. 35 horas (de 1000)
  4. 50 horas (de 1000)

Por supuesto, puede definir sus estratos de muchas otras maneras (o utilizar más estratos si se ajusta mejor a los parámetros de su problema), pero ésa es la idea general del muestreo estratificado.

EDITAR : No he mencionado el muestreo de probabilidad desigual a propósito. Se podrían utilizar perfectamente probabilidades proporcionales al número de actividades observadas (por ejemplo, por hora y por día). Esto le daría un estimador Horvitz-Thompson del número total de actividades con una varianza mínima (0, de hecho, si sus probabilidades se basan realmente en el número real de actividades observadas).

Sin embargo, si se intenta estimar un Horvitz-Thompson de una variable que está débilmente correlacionada con el número de actividades, se podría acabar con una precisión muy mala. En tu caso, entiendo que intentas estimar una variable discreta que describe las características de las personas que realizan la actividad, y supongo que no tienes conocimiento previo de cómo se comportan estas variables.

Por eso propuse el muestreo estratificado: funcionará razonablemente bien en la estimación del número total de actividades (y utilizando la asignación proporcional, se observará un número no muy lejano de actividades), y no se corre el riesgo de acabar con varianzas muy altas en otros estimadores.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X