5 votos

¿Cómo puedo controlar la tasa de falsos positivos?

Creo que soy bastante nuevo en esto, ya que ha pasado algún tiempo desde mi última tarea de estadística, así que tened paciencia conmigo.

Estoy analizando los resultados de un experimento biológico. Básicamente, estoy mirando un cierto gráfico sobre un genoma, donde cada posición en el genoma tiene un valor, y estoy buscando mínimos locales (picos).

Ahora, tengo que establecer algún umbral ya que los mínimos locales relativamente altos también se producen por casualidad. Puedo simular el experimento computacionalmente y obtener nuevos datos, pero esto exige bastantes recursos (no puedo realizar 1000 simulaciones, quizás 100 o incluso sólo 20).

Lo que estoy haciendo actualmente es ejecutar algunas simulaciones; para cada simulación: encontrar todos los mínimos locales, construir una CDF para los valores de los mínimos locales. Luego promediar todos los CDFs de simulación sobre todas las simulaciones para tener un CDF 'promedio' (CDF_simulaciones) que se supone que muestra cómo se distribuirían los mínimos locales si todo en mi genoma es aleatorio.

Hago lo mismo con los datos reales: encuentro los mínimos y construyo CDFs para sus valores, así que ahora tengo dos CDFs - una para los datos reales y otra para la media de las simulaciones.

Ahora busco el máximo x tal que CDF_simulations(x) / CDF_realdata(x) sea < 10%. Informo de todos los mínimos en los datos reales con valor < x como "verdadero".

Creo que con este método debería llegar a una tasa de FP del 10%.

  • ¿Tiene esto sentido?

  • ¿Cómo se llama este método y dónde puedo encontrar más información sobre él?

  • ¿Cómo debo escanear los CDF para encontrar la x correcta? A veces, para las x bajas, CDF_simulations(x) > CDF_realdata(x).

  • ¿Dónde entra en juego el número de simulaciones? ¿Tiene sentido construir simplemente una FCD promediada como hice yo?

Creo que esto es bastante común, y el nombre de FDR también me viene a la mente, pero al leer sobre FDR no pude averiguar exactamente cómo aplicarlo a mi situación.

Se agradecerá cualquier comentario y referencia (a ser posible, de fácil manejo).

Gracias Dave

2voto

BBlake Puntos 310
  • ¿Esto tiene sentido? Para mí, mayormente sí... aunque creo que puede estar haciendo algo que no espero (ver abajo).
  • Cómo se llama este método y dónde puedo encontrar más información sobre él: Está construyendo una distribución de referencia empírica a través de la permutación de sus etiquetas genómicas. Puede haber términos más elegantes. No sé cuál podría ser una buena cita, considere: Good, P. (2005) Permutation, Parametric, and Bootstrap Tests of Hypotheses, Springer-Verlag, NY, 3ª edición.
  • ¿Cómo debo escanear los CDF para encontrar la x correcta? A veces, para las x bajas, CDF_simulations(x) > CDF_realdata(x): Esta es la parte que tiene menos sentido para mí. No estoy seguro de lo que está haciendo aquí exactamente. ¿Tal vez lo que hay que hacer es encontrar el percentil 90 para el CDF_simulations y utilizarlo como límite para decir que podría haber algo interesante en CDF_realdata?
  • ¿Dónde entra en juego el número de simulaciones? ¿Tiene sentido construir simplemente una FCD promediada como hice yo? El número de simulaciones que realices producirá una distribución de referencia mayor y más fiable. Tu enfoque de CDF promediado me parece un poco impar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X