2 votos

La combinación de las listas clasificadas de verdaderos y falsos positivos da un resultado extraño. ¿Existe un principio general en este caso?

Pido disculpas si esta pregunta es demasiado general. Estoy dispuesto a editarla si es necesario. Dicho esto, me he encontrado con este resultado contraintuitivo dos veces ya, y me gustaría saber si hay una solución conocida y general para ello.

Cuando trabajo con muchos datos de biología, suelo hacer alguna combinación de:

  1. puntuar una lista de posibles aciertos, por ejemplo, "¿cuáles son las proteínas más probables en mi muestra, de mayor a menor probabilidad?"
  2. Recogida de múltiples réplicas
  3. combinar las listas de puntuación entre las réplicas
  4. aplicar una corrección de comparación múltiple, por ejemplo, un corte FDR.

El problema es que cuando combino listas de múltiples réplicas, a veces encuentro menos resultados después de la corrección por comparación múltiple. Es decir, en contra de la lógica, más los datos hacen que mis resultados peor . Creo que esto se debe a que los verdaderos positivos tienden a solaparse entre las listas (son reales) mientras que los falsos positivos no (son aciertos aleatorios y espurios). Por lo tanto, al combinar, los falsos positivos se acumulan más rápido que los verdaderos. He aquí un ejemplo:

enter image description here

La lista 1 y la lista 2 tienen tres TP y dos FP (precisión = 3 / 5 = 60% ), y, si aplicamos un límite de FDR del 50%, devolveríamos todos los cinco golpes de cada lista. Por otro lado, la lista combinada tiene una precisión total de 50% aplicando un límite de FDR del 50%, se obtiene cuatro golpes . Según ambas medidas, la lista combinada es peor. Y simplemente parece peor, por ejemplo, hay menos TP cerca de los primeros puestos.

El efecto depende, obviamente, de cómo haya elegido combinar las listas. Por un lado, la lista combinada no es redundante (por ejemplo, A sólo aparece una vez), y por otro, he combinado las puntuaciones tomando el valor máximo (en lugar de, por ejemplo, la media). Por lo que he visto, ambas son opciones comunes, aunque estoy bastante seguro de que es aquí donde está mi error. Mis soluciones hasta ahora son ad hoc, por ejemplo, diferentes reglas para combinar las puntuaciones.

Pregunta 1: ¿Existe un principio general en este caso? Como he dicho, me he encontrado con esto dos veces... (¡debe haber una tesis al respecto!)

Pregunta 2: ¿Podría combinar las puntuaciones de forma "bayesiana"? No sé qué significa eso en la práctica, aunque "acumular pruebas" me hace pensar en "bayesiano".

1voto

T.R. Puntos 1293

La FDR está diseñada para mantener la tasa de falsos descubrimientos por debajo del umbral que usted requiere, y veo que lo hace, tanto en las listas separadas como en las combinadas. El hecho de que la tasa sea ligeramente mejor en las listas separadas (40 en lugar de 50 %) podría deberse al bajo número de descubrimientos totales (5), creo.
El número total de reclamado Los éxitos no me parecen una buena propiedad, y desde luego no es el objetivo de las correcciones basadas en el FDR. Se podría relajar la $q$ umbral al 100%, y todas sus proteínas serán reclamadas como éxitos entonces!.

En cuanto a la combinación de FDR qs de una manera más informada: No estoy cualificado para comentar mucho sobre esto, tal vez haya alguna forma ad hoc que lo permita - pero no veo el sentido de aplicar primero una regla de decisión (filtrado en FDR, p-val o lo que sea), y luego combinar las decisiones. ¿Por qué no combinar las estadísticas de las pruebas reales, como en el enfoque estándar del meta-análisis? Las reglas de decisión no añaden ninguna información, a menos que, por ejemplo, el coste computacional de la combinación de resultados sea alto, y se prefiera reducir las listas separadas inicialmente.

0voto

liuwul000 Puntos 101

Creo que el "principio general" que buscas es la teoría de conjuntos: https://en.wikipedia.org/wiki/Set_theory

Tiene un conjunto de réplicas S = {A,B,C,D,E,F,G,H} que es su lista combinada. A partir de S, tienes dos subconjuntos L1 = {A,B,C,D,E} que es la lista 1 y L2 = {A,B,F,G,H} que es la lista 2.

La combinación de la Lista 1 y la Lista 2, sin duplicados, se llama unión. Se representa como L1 L2. Una intersección, L1 L2, es el conjunto de todos los elementos comunes entre L1 y L2. En este ejemplo L1 L2 = {A,B}. La fórmula de la unión es (L1 L2) = L1 + L2 - (L1 L2). Esto significa que se están sumando los elementos de cada lista y luego se eliminan los duplicados, de modo que no se cuenta dos veces. En general, cuando las listas se superponen, L1 L2 < L1 + L2. Si las dos listas se excluyen mutuamente, entonces L1 L2 = L1 + L2.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X