52 votos

¿Por qué LIGO realiza inyecciones de datos a ciegas y el LHC no?

El grupo LIGO tiene un equipo que periódicamente produce datos falsos indicando una posible onda gravitacional sin informar a los analistas. Un amigo mío que trabaja en el análisis de datos del LHC me dijo que ninguno de los grupos del LHC hace esto. ¿Por qué uno de estos proyectos con gran cantidad de datos utiliza inyecciones ciegas de datos y el otro no?

7 votos

Quizás porque en un caso, estás disparando a un objetivo y compruebas si aciertas y en el otro, estás esperando a que suene la alarma de incendios para poder actuar y en este último caso, es mejor estar preparado.

7 votos

¿Cómo distinguirías la diferencia? LIGO busca algo que es sencillo y teóricamente bien entendido. LHC busca cosas que nunca se han visto y si se finge algo con los generadores de eventos que puede ocurrir según el modelo actual, los analistas de datos concluirían correctamente que está ocurriendo.

60voto

Nick Puntos 583

Después de que me hablaran de sus impresionantes "Olimpiadas del LHC", en las que los físicos (a menudo teóricos empedernidos) realizaban ingeniería inversa de un modelo de física de partículas a partir de los datos brutos (pero falsos) del LHC, propuse la misma idea en un círculo de físicos de Harvard, entre los que se encontraba Nima Arkani-Hamed, en algún momento de 2005 y hemos trabajado en esas ideas del LHC con cierto detalle. Pensábamos en lo divertido que sería inyectar algunas señales de dimensiones extra y muchas otras cosas. También estábamos reconociendo el aumento de la emoción que podría traer a la comunidad de la física de partículas.

La razón principal por la que este "simulacro" probablemente no sea tan importante para el LHC como lo fue para LIGO es que los físicos de partículas -experimentadores y fenomenólogos- están haciendo muchos ejercicios similares, de todos modos, aunque no se les diga que "son datos reales (pero falsos) del LHC". Los fenomenólogos piensan preventivamente en un montón de "posibles señales", etc. No necesitan un "entrenamiento" extra del mismo tipo.

Además, LIGO detecta ruido aburrido en casi todo momento, por lo que si parte de este ruido se sobrescribe, LIGO no pierde muchos datos valiosos. Sin embargo, incluso si se espera que el LHC cree procesos similares al Modelo Estándar todo el tiempo, su estructura es más compleja que un simple "ruido" sin nombre. Así que sobrescribiendo los datos reales por algo con una contaminación de una señal falsa, uno podría realmente contaminar los datos para muchos análisis. El trabajo real de muchas personas que lleva mucho tiempo podría ser inútil y es demasiado pedir.

Aquí, la diferencia realmente es que LIGO estaba bastante seguro de que no obtendría ningún real señal alrededor de 2010. Así que los físicos de LIGO no tenían nada de eso para trabajar, y para no perder sus habilidades, un "simulacro" fue una buena idea. Por otro lado, el LHC está analizando datos reales del LHC a partir de energías no probadas previamente como la de 13 TeV y hay una probabilidad significativa de que descubran algo incluso sin inyecciones. Así que las inyecciones no son necesarias - la gente trabaja mucho en datos interesantes y estructurados, de todos modos.

Una diferencia relacionada es que la fuerza de la señal de LIGO se acumula rápidamente durante esas 0,2 señales que duró la fusión de los agujeros negros. Por otro lado, la fuerza de la señal del LHC se acumula durante todo un año o más. Si todos los eventos interesantes de nueva física en el LHC tuvieran lugar muy rápidamente (en un día) y luego desaparecieran, los experimentadores podrían ver que algo es sospechoso. El LHC necesitaría contaminar la señal en todo el recorrido y no sabría cómo de fuerte debería ser la contaminación por unidad de tiempo de la perforación. La señal siempre se hace más fuerte si se registran más colisiones del LHC - pero un solo evento detectado por LIGO no puede ser "reforzado" por esa espera. Así que el simulacro de LIGO es una campaña bien definida que lleva un tiempo finito mientras que el simulacro del LHC podría ser una campaña de "tiempo indeterminado".

Como ha dicho básicamente CuriousOne pero lo diré de otra manera, también hay muchos más posibles descubrimientos en el LHC . Así que inventar una "señal falsa" en particular podría ser algo muy problemático: ¿cuál es la mejor señal para inyectar? El caso de LIGO fue muy diferente. La señal falsa de 2010 era en realidad una fusión de agujeros negros extremadamente similar al descubrimiento real de 2015-2016. Así que había básicamente "un único y más probable primer descubrimiento" -un escenario tan único y específico como un incendio en un rascacielos- por lo que un simulacro particular para ese escenario tenía cierto sentido.

38voto

Harsh Vardhan Puntos 31

Permítanme mencionar en primer lugar que el LHC es, en cierto modo, un experimento de libro de texto: se tiene un muy buen control sobre las condiciones experimentales y se puede repetir el experimento tantas veces como se quiera. Tienes, en cierto modo, un control total sobre la señal. Los resultados son reproducibles en el sentido de que basta con rehacer el experimento. LIGO es "sólo" un detector: En concreto, no tienes ningún control sobre la señal. Esto hace que los dos experimentos sean muy diferentes y lo que es interesante para un experimento puede no serlo para otro.

He aquí algunas razones por las que veo que esto no es realmente factible para el LHC:

  • LIGO depende de eventos individuales, el LHC no. Si el LHC encuentra algo, siempre se basa en muchas rondas de experimentos y miles de millones de colisiones para obtener las estadísticas necesarias. Si LIGO encuentra algo, se basa en una señal que dura sólo unos milisegundos. Eso significa que para falsificar la señal del LHC hay que manipularla durante meses, mientras que para falsificar la señal de LIGO hay que manipular quizá un segundo del conjunto de datos. Además, si se manipulan meses de datos, es muy probable que también se manipulen buenos datos que habrían conducido a un descubrimiento significativo.

  • La señal del LHC consiste en partículas que chocan entre sí y que son detectadas inmediatamente por un gran número de detectores muy diferentes en dos experimentos (ATLAS y CMS). Aunque esto puede hacerse mediante simulaciones de Monte Carlo, como señala CuriousOne, parece que sigue siendo mucho más fácil para LIGO: LIGO es "sólo" un interferómetro de Michelson: para fingir una señal, se menea con los espejos, porque eso cambia la longitud de la trayectoria del láser, que es lo único que se mide (esto se describe en su artículo).

  • Como dijo CuriousOne: El LHC detecta muchas cosas que son conocidas, pero lo que realmente nos interesa es lo que no tenemos ni idea de cómo debería ser (bueno, en realidad no: mucha gente tiene muchas ideas, pero nadie se pone de acuerdo y con todas las ideas, no está muy claro cómo será la señal exacta). En cambio, sabemos más o menos lo que buscamos en LIGO.

0 votos

La inyección de datos falsos en el experimento puede realizarse mediante software. No es necesario inyectarlos a nivel del detector o incluso del DAQ. No hay ningún problema en generar "ruido" y datos de eventos en los experimentos de física de altas energías, eso es el control del rendimiento del detector. Los detectores son tan complicados que su respuesta no se puede "deshacer" matemáticamente. En su lugar, calibramos los generadores de eventos de Monte Carlo y los modelos de detectores para que se parezcan a los datos reales de "ruido" y luego buscamos las diferencias que se producen en la simulación si cambiamos las suposiciones en el Monte Carlo.

0 votos

@CuriousOne: Gracias por señalarlo. Sé que los detectores son demasiado complicados para deshacerlos matemáticamente y pensé en los métodos de Montecarlo, pero olvidé que se puede simplemente "entrenar" el modelo usando los datos reales de ruido. Gracias por señalarlo. He reescrito/borrado el párrafo en consecuencia. Sigo diciendo que esto suena más difícil que el meneo de espejos de LIGO, pero supongo que el hecho de que algo sea un poco más difícil no es una buena razón para no hacerlo -lo que no importa aquí ya que hay diferentes razones de todos modos...

2 votos

Creo que se puede estar de acuerdo en que la metodología utilizada en la física de altas energías es un método de análisis de datos ligeramente impar (¿al revés?) y a primera vista cuestionable... uno que sin duda está impulsado por la complejidad del problema más que por el deseo de los físicos de hacerlo así. Todo lo que digo es que ciertamente se podrían insertar datos falsos de manera que los analistas no lo supieran, pero parece que se gana relativamente poco con ello, sobre todo porque puede tener repercusión si mancha los MC. Un experimento en el que trabajé tenía muy discusiones acaloradas sobre datos de prueba falsos. :-)

12voto

aceinthehole Puntos 1460

La inyección de eventos falsos es sólo uno de los varios esquemas para el análisis "ciego". Otros esquemas de cegamiento implican la manipulación de algún parámetro de los datos como muestra al equipo de análisis mediante una transformación reversible de algún tipo, múltiples análisis independientes y análisis completos en seco sobre datos simulados.

Lo que hay que entender es a qué fines sirve hacer estas cosas.

  • Inyección de eventos falsos

    Funciona mejor cuando la salida de un detector es sencilla (en el caso de LIGO se trata básicamente de una única serie temporal para cada uno de los interferómetros) y la señal esperada se conoce razonablemente bien, y es de mayor utilidad cuando los eventos reales son poco frecuentes. Sirve para ensayar y probar el proceso que se utilizará en la observación de un evento real

    KamLAND recibía alrededor de un evento real por día, por lo que las detecciones no eran muy raras, pero el equipo de turno anotó detecciones individuales en los primeros días del experimento. Cuando me incorporé al experimento, tenían una rutina de "detección de eventos en línea" que se activaba un par de veces por turno y servía para mantenerte alerta. No se trataba de datos falsos, sino de un filtro grueso. No obstante, significaba que los encargados de los turnos tenían que ejercitar su respuesta a un evento de datos con regularidad.

    La naturaleza de los datos en un gran detector compuesto como los del LHC es muy diferente. Para los procesos de interés las señales no son discretas sino que se construyen mediante una cartera de eventos y siempre tienen un fondo no trivial. Las señales falsas y sus antecedentes tienen que ser generadas por simulaciones de Monte Carlo a gran escala y unidas en un flujo de datos falsos, y luego separadas de nuevo para validar un análisis propuesto, un proceso que está ocurriendo todo el tiempo pero que ocurre fuera de línea.

  • Transformación reversible de los datos.

    La principal ventaja de hacer un "análisis ciego" de este tipo es que evita que el equipo de análisis tome decisiones sobre cómo establecer los cortes a partir de un sesgo (presumiblemente inconsciente, pero también funciona contra algunas manipulaciones maliciosas) sobre cómo "deberían" salir los resultados.

    El $G^0$ El experimento del factor de forma débil del protón en el JLAB utilizó una escala multiplicativa (almacenada fuera de línea en un lugar seguro y conocida sólo por unos pocos miembros de alto nivel de la colaboración no que intervienen en el análisis) aplicado a la asimetría instantánea, por ejemplo. En este caso, el principal resultado notificable del experimento iba a ser el tamaño de esta asimetría, por lo que la manipulación impedía optimizar el análisis para obtener el resultado preferido.

  • Múltiples análisis por separado

    En este caso, dos o más equipos trabajan de forma independiente sobre los datos desde el principio y las comparaciones entre sus resultados se realizan sólo ocasionalmente y en un entorno público. La idea es que cada equipo tendrá que enfrentarse a los mismos problemas y, al hacerlo por separado, a veces los resolverá de forma diferente. Si los resultados del análisis son sólidos frente a un manejo ligeramente diferente de los datos, se puede tener más confianza en ellos; por otro lado, si los equipos no están de acuerdo, se les pide que actúen como defensores de su propio punto de vista frente al escrutinio tanto del resto de la colaboración como de otros equipos hasta que se resuelvan las diferencias en los resultados. He visto que esto se utiliza por diseño en $G^0$ , KamLAND y Double Chooz, y se utiliza de forma natural en casi cualquier gran proyecto, simplemente porque las áreas de interés de varios grupos de trabajo se solapan.

    Como ya he señalado antes, CMS y ATLAS constituyen una especie de superversión de este proceso en el que incluso los detalles de sus detectores difieren. Por eso su anuncio combinado del descubrimiento del Higgs fue más convincente de lo que podría haber sido un anuncio individual con estadísticas similares.

  • Desafío de Monte-Carlo fuera de línea.

    En este esquema, se presenta al equipo de análisis o a subconjuntos del mismo un flujo de datos completamente falso que se construye para que tenga todas las señales y fondos esperados (y quizás algunos datos "especiales") y se les pide que separen el tamaño de las distintas contribuciones. Se trata de un simulacro para un análisis completo de los datos realizado con un conjunto de trabajo que es completamente comprendido por alguna parte de la colaboración que no forma parte de los equipos de análisis. He visto esto a gran escala para Double Chooz y MicroBooNE.

11voto

Rob Jeffries Puntos 26630

El experimento LIGO consiste en detectar eventos individuales con una forma característica que se producen en menos de un segundo. Teniendo en cuenta lo mucho que está en juego y que es posible que sólo se detecten uno o unos pocos sucesos, tenía sentido realizar ensayos del protocolo de detección para evaluar su fiabilidad y fidelidad.

El LHC controla millones de colisiones por segundo y los eventos que condujeron al descubrimiento del bosón de Higgs se acumularon durante meses y años. La conclusión de que el bosón de Higgs existe no surge a partir de uno (o incluso unos pocos) eventos, por lo que probar el protocolo de detección de la misma manera que para las ondas gravitacionales no tendría sentido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X