Sobre la cifra de 40000
Las noticias son realmente sensacionalistas, pero el periódico está realmente bien fundamentado. Las discusiones se prolongaron durante días en mi laboratorio, en definitiva una crítica realmente necesaria que hace que los investigadores hagan una introspección de su trabajo. Recomiendo la lectura del siguiente comentario de Thomas Nichols uno de los autores del "Fracaso del clúster: Por qué las inferencias de fMRI para la extensión espacial tienen tasas infladas de falsos positivos" papel (perdón por la cita tan larga).
Sin embargo, hay una cifra que lamento: 40.000. Al tratar de referirse a la importancia de la disciplina fMRI, utilizamos una estimación de la toda la literatura de RMf como número de estudios afectados por nuestros hallazgos. En nuestra defensa, encontramos problemas con la inferencia del tamaño de los grupos en general (graves para P=0,01 CDT, sesgados para P=0,001), el método de inferencia dominante de inferencia dominante, lo que sugiere que la mayor parte de la literatura estaba afectada. Sin embargo, el número de la declaración de impacto ha sido recogido por la prensa popular y alimentó una pequeña tormenta en Twitter. Por lo tanto, siento que es mi deber hacer al menos una estimación aproximada de "¿A cuántos artículos afecta nuestro trabajo?". No soy bibliometrista, y esto es realmente un ejercicio aproximado, pero espero que dé una idea del orden de magnitud del problema. de magnitud del problema.
El código de análisis (en Matlab) se presenta a continuación, pero aquí está el de los cálculos probabilísticos razonables, pero con muestras de la literatura, estimo que unos 15.000 artículos utilizan artículos utilizan la inferencia del tamaño de los conglomerados con la corrección de las pruebas múltiples. de pruebas múltiples; De ellos, unos 3.500 utilizan un CDT de P=0,01. 3.500 son aproximadamente el 9% de toda la literatura, o quizás más útil, el 11% de los artículos que contienen datos originales. (Por supuesto, algunos de estos 15.000 o 3.500 pueden utilizar la inferencia no paramétrica, pero desgraciadamente es poco frecuente para fMRI; en cambio, es la herramienta de inferencia por defecto para los análisis estructurales VBM/DTI en FSL).
Francamente pensé que esta cifra sería mayor, pero no me di cuenta de la gran proporción de estudios que nunca utilizaron ningún tipo de corrección de pruebas múltiples. (¡No se pueden inflar las significaciones corregidas si si no se corrige). . Estos cálculos sugieren que 13.000 trabajos no utilizaron corrección de pruebas múltiples. Por supuesto, algunos de ellos pueden utilizar regiones de interés o análisis de sub-volumen, pero son pocos (es decir de estilo de ensayo clínico) que no tienen absolutamente ninguna multiplicidad multiplicidad. Nuestro artículo no se refiere directamente a este grupo, pero para las publicaciones publicaciones que utilizaron la corrección popular de pruebas múltiples, P<0,001 y k>10, nuestro nuestro trabajo muestra que este enfoque tiene tasas de error por familia muy superiores al 50%.
Entonces, ¿estamos diciendo que 3.500 documentos están "equivocados"? Depende. Nuestros resultados sugieren que los resultados de CDT P=0,01 tienen valores P inflados, pero cada estudio debe pero cada estudio debe ser examinado si los efectos son realmente fuertes, probablemente no importa si los valores P están sesgados, y la inferencia científica permanecerá permanecerá sin cambios. Pero si los efectos son realmente débiles, entonces los resultados podrían ser consistentes con el ruido . Y, ¿qué pasa con esos 13.000 trabajos sin corrección, especialmente comunes en la primera de la literatura? No, tampoco hay que descartarlos de plano, pero hay que tener un pero hay que tener un ojo especialmente cansado para esos trabajos, sobre todo cuando se compararlos con las nuevas referencias con estándares metodológicos mejorados. metodológicas mejoradas.
También incluye esta tabla al final:
AFNI BV FSL SPM OTHERS
____ __ ___ ___ ______
>.01 9 5 9 8 4
.01 9 4 44 20 3
.005 24 6 1 48 3
.001 13 20 11 206 5
<.001 2 5 3 16 2
Básicamente, el SPM (Statistical Parametric Mapping, una caja de herramientas para Matlab) es la herramienta más utilizada para los estudios de neurociencia con fMRI. Si revisas el artículo verás que usar un CDT de P = 0,001 (el estándar) para los clusters en SPM da casi la tasa de error esperada por familia.
Los autores incluso llenaron una errata debido a la redacción del documento:
Dada la amplia interpretación errónea de nuestro artículo, Eklund et al, Cluster Failure: Why fMRI inferences for spatial extent have inflated de falsos positivos, presentamos una fe de erratas a la oficina de redacción de PNAS de PNAS:
Errata para Eklund et al., Cluster failure: Por qué las inferencias de fMRI para la extensión espacial tienen tasas infladas de falsos positivos. Eklund, Anders; Nichols, Thomas E; Knutsson, Hans
Dos frases estaban mal redactadas y podrían malinterpretarse como una exageración de nuestros resultados.
La última frase de la declaración de importancia debe decir: "Estos resultados cuestionan la validez de una serie de estudios de IRMf y pueden tener un gran impacto en la interpretación de los resultados de resultados de neuroimagen".
La primera frase después del título "El futuro de la fMRI" debería haber dicho: "Debido a las lamentables prácticas de archivo e intercambio de datos es es poco probable que se puedan rehacer los análisis problemáticos".
Estas sustituyen a las dos frases que implicaban erróneamente que nuestro trabajo afectaba a las 40.000 publicaciones (véase Bibliometría de la para una estimación de la cantidad de literatura potencialmente potencialmente afectada).
Después de rechazar inicialmente la fe de erratas, alegando que era corregir la interpretación y no los hechos, PNAS ha accedido a publicarla tal y como la presentamos anteriormente.
Sobre el llamado Bug
Algunas noticias también mencionan un error como la causa de la invalidez de los estudios. En efecto, una de las herramientas de la AFNI corregía insuficientemente las inferencias y esto se resolvió después de la publicación del preprint en arXiv .
Inferencia estadística utilizada en la neuroimagen funcional
La neuroimagen funcional incluye muchas técnicas que pretenden medir la actividad neuronal en el cerebro (por ejemplo, fMRI, EEG, MEG, NIRS, PET y SPECT). Estas técnicas se basan en diferentes mecanismos de contraste. La fMRI se basa en el contraste dependiente del nivel de oxígeno en sangre (BOLD). En la fMRI basada en tareas, ante un estímulo, las neuronas del cerebro responsables de la recepción de ese estímulo empiezan a consumir energía y esto desencadena la respuesta hemodinámica que cambia la señal de resonancia magnética ( $\approx 5\%$ ) en las proximidades de la microvascularización reclutada.
Utilizando un modelo lineal generalizado (GLM) usted identifica qué series temporales de señales de voxel están correlacionadas con el diseño del paradigma de su experimento (normalmente una serie temporal booleana convolucionada con una función de respuesta hemodinámica canónica, pero existen variaciones).
Así que este GLM le dio lo mucho que cada voxel series de tiempo se asemeja a la tarea. Ahora, digamos que tienes dos grupos de individuos: pacientes y controles normalmente. La comparación de las puntuaciones del MLG entre los grupos podría utilizarse para mostrar cómo la condición de los grupos modula su patrón de "activación" cerebral.
Comparación entre vóxeles entre los grupos es factible, pero debido a la función de dispersión de puntos inherente al equipo, más un paso de preprocesamiento de suavizado, no es razonable esperar que los vóxeles lleven individualmente toda la información. La diferencia de vóxeles entre los grupos debería, de hecho, repartirse entre los vóxeles vecinos.
Así que, comparación por grupos se realiza, es decir, sólo se consideran las diferencias entre los grupos que se forman en los clusters. Este El umbral de extensión de los clusters es la técnica de corrección de comparaciones múltiples más popular en los estudios de RMNf. El problema reside aquí.
SPM y FSL dependen de la teoría gaussiana de campos aleatorios (RFT) para para la inferencia corregida por FWE a nivel de voxel y de cluster. Sin embargo, la RFT depende de dos supuestos adicionales. La primera La primera suposición es que la suavidad espacial de la señal fMRI es constante en el cerebro, y la segunda es que la función de autocorrelación espacial tiene una forma específica (una exponencial cuadrada) (30)
En SPM, al menos, hay que establecer una tasa nominal de FWE y también un umbral de definición de cluster (CDT). Básicamente, el SPM encuentra los vóxeles altamente correlacionados con la tarea y, tras el umbral con el CDT, los vecinos se agregan en clusters. El tamaño de estos clusters se compara con la extensión esperada de los clusters a partir de la Teoría del Campo Aleatorio (RFT) dado el conjunto de FWER [ 1 ].
La teoría del campo aleatorio requiere que el mapa de actividad sea suave, que sea un una buena aproximación a los campos aleatorios. Esto está relacionado con la cantidad de suavizado que se aplica a los volúmenes. El suavizado también afecta a la suposición de que los residuos se distribuyen normalmente, ya que el suavizado, por el teorema del límite central, hará que los datos sean más gaussianos.
Los autores han demostrado en [ 1 En el caso de la prueba de permutación aleatoria (RPT), el tamaño de los conglomerados esperados es realmente pequeño si se compara con los umbrales de extensión de los conglomerados.)
En su artículo más reciente, los datos del estado de reposo (otra modalidad de la RMf, en la que se instruye a los participantes para que no piensen en nada en particular) se utilizaron como si las personas realizaran una tarea durante la adquisición de las imágenes, y la comparación de los grupos se realizó por vóxeles y grupos. La tasa de error falso positivo observada (es decir, cuando se observan diferencias en la respuesta de la señal a una tarea virtual entre los grupos) debería ser razonablemente inferior a la tasa FWE esperada, establecida en $\alpha = 0.05$ . Sin embargo, al volver a realizar este análisis millones de veces en grupos muestreados aleatoriamente con diferentes paradigmas, la mayoría de los índices FWE observados fueron superiores a los aceptables.
@amoeba planteó estas dos preguntas muy pertinentes en los comentarios:
(1) El artículo de Eklund et al. en el PNAS habla del "nivel nominal del 5%" de todas las las pruebas (véase, por ejemplo, la línea negra horizontal de la figura 1). Sin embargo, el CDT en la misma figura es variable y puede ser, por ejemplo, 0,01 y 0,001. ¿Cómo se relaciona el CDT con la tasa de error nominal de tipo I? Estoy confundido por eso. (2) ¿Ha visto la respuesta de Karl Friston http://arxiv.org/abs/1606.08199 ? Lo leí, pero no estoy muy seguro de lo que dicen: ¿veo correctamente que están de acuerdo con Eklund et al. pero dicen que se trata de un problema "bien conocido"?
(1) Buena pregunta. La verdad es que he revisado mis referencias, a ver si ahora me aclaro. La inferencia por conglomerados se basa en la extensión de los conglomerados que se forman después de un umbral primario (el CDT, que es arbitrario ) se aplica. En el análisis secundario a umbral en el número de vóxeles por clúster se aplica. Este umbral se basa en la distribución esperada de las extensiones de los clústeres nulos, que puede estimarse a partir de la teoría (por ejemplo, RFT), y establece una FWER nominal. Una buena referencia es [ 2 ].
(2) Gracias por esta referencia, no la había visto antes. Flandin & Friston argumentan que Eklund et al. corroboraron la inferencia RFT porque básicamente demostraron que respetando sus supuestos (en relación con la CDT y el suavizado) los resultados son insesgados. Bajo esta luz, los nuevos resultados muestran que diferentes prácticas en la literatura tienden a sesgar la inferencia ya que rompe los supuestos de la RFT.
Sobre las comparaciones múltiples
También es bien sabido que muchos estudios en neurociencia no corrigen las comparaciones múltiples, con estimaciones que van del 10% al 40% de la literatura. Pero estos no se contabilizan por esa afirmación, todo el mundo sabe que estos trabajos tienen una validez frágil y posiblemente enormes tasas de falsos positivos.
En la FWER por encima del 70%
Los autores también informaron de un procedimiento que produce una FWER superior al 70%. Este procedimiento "popular" consiste en aplicar la CDT para mantener sólo los clusters altamente significativos y luego aplicar otro umbral de extensión de clusters elegido arbitrariamente (en número de vóxeles). Este procedimiento, a veces llamado "set-inference", tiene bases estadísticas débiles y posiblemente genera los resultados menos fiables.
Informes anteriores
Los mismos autores ya habían informado sobre los problemas de validez del SPM [ 1 ] en los análisis individuales. También hay otros trabajos citados en este ámbito.
Curiosamente, varios informes sobre análisis a nivel de grupo e individual basados en datos simulados concluyeron que el umbral de RFT era, de hecho, conservador. Sin embargo, con los recientes avances en la capacidad de procesamiento, la RPT puede realizarse mucho más fácilmente con datos reales, mostrando grandes discrepancias con la RFT.
ACTUALIZACIÓN: 18 de octubre de 2017
Un comentario sobre "Fallo de la agrupación" ha salido a la luz el pasado mes de junio [ 3 ]. Allí Mueller et al. argumentan los resultados presentados en Eklund et al puede ser debido a una técnica específica de preprocesamiento de imágenes utilizada en su estudio. Básicamente, volvieron a muestrear las imágenes funcionales a una resolución más alta antes de suavizarlas (aunque probablemente no lo hagan todos los investigadores, este es un procedimiento rutinario en la mayoría de los programas de análisis de IRMf). También señalan que Flandin y Friston no lo hicieron. De hecho, pude ver la charla de Eklund en el mismo mes en la Reunión Anual de la Organización para el Mapeo del Cerebro Humano (OHBM) en Vancouver, pero no recuerdo ningún comentario sobre esta cuestión, aunque parece crucial para la pregunta.
[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M., & Knutsson, H. (2012). Un estudio empírico de 1484 conjuntos de datos en reposo. NeuroImage, 61(3), 565-578.
[2] Woo, C. W., Krishnan, A., & Wager, T. D. (2014). Cluster-extent based thresholding in fMRI analyses: pitfalls and recommendations. Neuroimage, 91, 412-419.
[3] Mueller, K., Lepsien, J., Möller, H. E., & Lohmann, G. (2017). Comentario: El fracaso de los clústeres: Por qué las inferencias de fMRI para la extensión espacial tienen tasas infladas de falsos positivos. Fronteras de la Neurociencia Humana, 11.