Creo que soy bastante nuevo en esto, ya que ha pasado algún tiempo desde mi última tarea de estadística, así que tened paciencia conmigo.
Estoy analizando los resultados de un experimento biológico. Básicamente, estoy mirando un cierto gráfico sobre un genoma, donde cada posición en el genoma tiene un valor, y estoy buscando mínimos locales (picos).
Ahora, tengo que establecer algún umbral ya que los mínimos locales relativamente altos también se producen por casualidad. Puedo simular el experimento computacionalmente y obtener nuevos datos, pero esto exige bastantes recursos (no puedo realizar 1000 simulaciones, quizás 100 o incluso sólo 20).
Lo que estoy haciendo actualmente es ejecutar algunas simulaciones; para cada simulación: encontrar todos los mínimos locales, construir una CDF para los valores de los mínimos locales. Luego promediar todos los CDFs de simulación sobre todas las simulaciones para tener un CDF 'promedio' (CDF_simulaciones) que se supone que muestra cómo se distribuirían los mínimos locales si todo en mi genoma es aleatorio.
Hago lo mismo con los datos reales: encuentro los mínimos y construyo CDFs para sus valores, así que ahora tengo dos CDFs - una para los datos reales y otra para la media de las simulaciones.
Ahora busco el máximo x tal que CDF_simulations(x) / CDF_realdata(x) sea < 10%. Informo de todos los mínimos en los datos reales con valor < x como "verdadero".
Creo que con este método debería llegar a una tasa de FP del 10%.
-
¿Tiene esto sentido?
-
¿Cómo se llama este método y dónde puedo encontrar más información sobre él?
-
¿Cómo debo escanear los CDF para encontrar la x correcta? A veces, para las x bajas, CDF_simulations(x) > CDF_realdata(x).
-
¿Dónde entra en juego el número de simulaciones? ¿Tiene sentido construir simplemente una FCD promediada como hice yo?
Creo que esto es bastante común, y el nombre de FDR también me viene a la mente, pero al leer sobre FDR no pude averiguar exactamente cómo aplicarlo a mi situación.
Se agradecerá cualquier comentario y referencia (a ser posible, de fácil manejo).
Gracias Dave