En la película de Marvel "Los Vengadores", hay una escena en la que Bruce Banner, en busca de una pieza de tecnología alienígena llamada "tesseract", dice que él va a "áspero hacia fuera un algoritmo de seguimiento, sólo un reconocimiento de clúster básico." ¿Esto es algo coherente que decir? Soy un novato en las estadísticas, pero he escuchado de cluster análisis y patrón de reconocimiento. Reconocimiento de clúster utiliza para referirse a lo mismo y ¿qué relación tiene a los algoritmos de seguimiento? (O Bruce Banner mintió?)
Respuestas
¿Demasiados anuncios?Para "reconocer" algo primero debe existir, por lo que se utilizará un supervisado mientras que la agrupación es un algoritmo sin supervisión clase de métodos de aprendizaje automático. Los algoritmos de clustering agrupan en términos de similitud, en lugar de reconocer patrones conocidos. Así que yo diría que parece otro ejemplo en el que hay menos ciencia y más ficción en las películas y en el que se utilizan términos frikis no relacionados en combinación aleatoria para que suenen científicos...
Se están estudiando grupos de fotones gamma detectados para encontrar posibles fuentes de rayos gamma
El cubo o teseracto está emitiendo radiación gamma . Para encontrar fuentes de radiación gamma (y, por tanto, una posible ubicación del teseracto) se pueden utilizar algoritmos para detectar agrupaciones en las ubicaciones detectadas de radiación gamma.
Nótese que las localizaciones/direcciones estimadas de los fotones observados no son tan exactas, con error, por lo que entra en juego la estadística. Siempre que los fotones detectados estén muy cerca unos de otros, esto puede indicar que están relacionados con una fuente que irradia fotones gamma.
Encontrar agrupaciones de rayos gamma es una forma de averiguar si un rayo gamma detectado es de fondo o pertenece, junto con otros rayos gamma detectados, a alguna posible fuente común.
Los astrónomos han estado utilizando el algoritmo del árbol de expansión mínima para encontrar agrupaciones de rayos gamma detectados (ptencialmente) asociados (véase, por ejemplo: Campana 2008 ).
Una imagen de ejemplo de cómo funciona
Se puede generar una imagen de ejemplo de cómo funciona esto con el software estadístico R (véase más abajo):
Es una imagen similar a las que se encuentran en las obras (pero no puedo encontrar una imagen con licencia libre claro):
-
Campana, R., et al. "Minimal spanning tree algorithm for -ray source detection in sparse photon images: cluster parameters and selection strategies". Astrofísica y ciencias espaciales 347.1 (2013): 169-182. enlace al documento axiv https://arxiv.org/abs/1305.2025
-
Campana, Riccardo, et al. "A Minimal Spanning Tree algorithm for source detection in -ray images". Avisos mensuales de la Real Sociedad Astronómica 383.3 (2008): 1166-1174. enlace a la revista
library(emstreeR)
## 2D artifical data
set.seed(1)
n <- 20
n2 <- 400-n*3
## c1 to c3 are artificial clusters
## c4 is background noise
c1 <- data.frame(y = rnorm(n, 45, sd = 1),
x = rnorm(n, 130, sd = 1))
c2 <- data.frame(y = rnorm(n, 50, sd = 1),
x = rnorm(n, 125, sd = 1))
c3 <- data.frame(y = rnorm(n, 55, sd = 1),
x = rnorm(n, 135, sd = 1))
c4 <- data.frame(y = runif(n2, 40,60),
x = runif(n2, 120,150))
d <- rbind(c1, c2, c3, c4)
## MST:
out <- ComputeMST(d)
## 2D plot of points:
plot(-100,-100,xlim = c(120,150), ylim = c(40,60), xlab="latitude", ylab="longitude")
points(out$x,out$y,
pch = 21, col = 1, bg = 1, cex=0.4)
title("approximate spatial distribution \n of detected signals", cex.main=1)
plot(-100,-100,xlim = c(120,150), ylim = c(40,60), xlab="latitude", ylab="longitude")
points(out$x,out$y,
pch = 21, col = 1, bg = 1, cex=0.4)
title("red lines: small edges \n green dots: connected with n >= 10", cex.main = 1)
# draw clusters seperately with large size
library(igraph)
edgevector <- as.numeric(matrix(cbind(out$from[edgeselect],out$to[edgeselect]),2,byrow=TRUE))
graph <- make_graph(edgevector, directed = FALSE)
groepen <- groups(components(graph))
sizes <- which(components(graph)$csize>=10)
for (s in sizes) {
coordinates <- unlist(groepen[s])
points(out$x[coordinates],
out$y[coordinates],col=3)
}
# draw the tree and use mean distance as boundaries between clusters
boundary = mean(out$distance)
edgeselect = out$distance<boundary
colors = rgb(0.75+edgeselect*0.25,
0.75-edgeselect*0.75,
0.75-edgeselect*0.75)
for (i in 1:400) {
lines(c(out$x[out$from[i]],out$x[out$to[i]]),
c(out$y[out$from[i]],out$y[out$to[i]]),
col = colors[i])
}
Esto es muy gracioso. Estaba viendo Los Vengadores y oí a Banner decir eso. He estado aprendiendo ML durante el último año, así que me preguntaba si alguien más se dio cuenta de eso.
El análisis de conglomerados es el proceso de minimizar la distancia entre los puntos de datos y maximizar los centroides (conglomerados). Como sugirió Tim, se trata de un aprendizaje no supervisado, por lo que no existe una "variable objetivo/conocida".
Para responder a su pregunta, creo que sí es coherente. Estoy asumiendo que se puede crear un clustering algo para analizar ciertas variables incluyendo la radiación gamma que estos laboratorios recogen a lo largo del tiempo. También estoy asumiendo que las lecturas pueden fluctuar, incluso si el cubo no está cerca. Con las lecturas de varios laboratorios, el algoritmo de agrupación puede agrupar los laboratorios que tuvieron lecturas elevadas en determinados momentos. Para rastrear y tal vez mirar el movimiento del tesaracto. Para, al menos, reducir la búsqueda de dónde ha estado o dónde está. Supongo que esto formaría parte del algoritmo. Después podría ser una búsqueda de los móviles/portátiles, etc. que Fury había mencionado en esa zona, u otras anomalías en la zona (muertes locas debidas a loki, objetos perdidos/robados/informes de los materiales que loki buscaba, localización de reactores, etc.).
2 votos
A la luz de la existencia de una respuesta votada, creo que esta pregunta no es demasiado confusa para ser respondida. Voto por dejarla abierta.
1 votos
No estoy de acuerdo con las respuestas, pero eso se debe sobre todo a que falta información sobre cómo se hizo el seguimiento o cómo ayudó el algoritmo (y tendré que volver a ver esa película para recordar de qué iba) y no podemos responder con certeza. Puedo imaginar que el análisis de conglomerados puede usarse para encontrar patrones (desconocidos) y esos patrones pueden ayudar a rastrear/encontrar algo. No me extrañaría que esta técnica se hubiera utilizado en el programa de televisión 'numb3rs', aunque es un poco más enrevesado y los clusters no son directamente la respuesta (me lo imagino como un paso previo al procesamiento).
0 votos
Después de leer el guión (que es mucho mucho más aburrido que la película) así como información sobre el teseracto, parece que todo se trata de que el teseracto emite radiación gamma. Pero aún no entiendo como el análisis cluster va a ayudar en esto. Banner menciona que se supone que disminuye el área de búsqueda.