Tengo cerca de 50 ficheros(cada fichero corresponde a un paciente) con 4 columnas -
chromosome start.position stop.pos value
Las 3 primeras columnas de los 50 ficheros son iguales y la cuarta columna es el valor que es diferente (o puede ser el mismo para algunos) para todos los pacientes. Básicamente este valor corresponde al número de copias (variación estructural en el genoma). Quiero aplicar alguna prueba (o si puede sugerir algún otro procedimiento) para encontrar los valores que se desvían en comparación con los demás. Ejemplo-
file1 chromosome start.position stop.pos value
1 10 110 4
2 100 200 5
2 500 600 0.5
archivo2
chromosome start.position stop.pos value
1 10 110 2.5
2 100 200 6
2 500 600 0.6
archivo3
chromosome start.position stop.pos value
1 10 110 3
2 100 200 5.5
2 500 600 3.5
archivo4
chromosome start.position stop.pos value
1 10 110 2
2 100 200 0.9
2 500 600 3
archivo5
chromosome start.position stop.pos value
1 10 110 8
2 100 200 4.5
2 500 600 2.5
Así, en la salida, el fichero 5 tiene un valor significativo (en comparación con la misma posición de otros ficheros) en la fila 1, el fichero 4 tiene un valor significativo en la fila 2 y el fichero 1 y el fichero 2 tienen un valor significativo en la fila 3.
Tengo una solución en mente: elegir una fila de cada archivo y sacar la media de los valores. Luego comparar este promedio con cada archivo y devolver la posición si es significativo en comparación con el promedio. Pero creo que debería haber alguna solución mejor para esto. ¿Puede usted por favor sugerir cualquier prueba o cualquier otro procedimiento que se utiliza para completar esta tarea.
Gracias de antemano.
EDIT: Después de leer el comentario de Joel.
Sí, tengo una pregunta concreta en mente. Como he mencionado, estos archivos corresponden a cada paciente, por lo que estoy tratando de encontrar si un paciente tiene un aumento significativo (o disminución) en el valor en cierta posición (es decir, fila). Ok podemos hablar de sólo 1 fila ahora. Consideremos 1 posición (1 fila), tomemos los valores (en este caso, para la primera fila tendremos 5 valores, ya que tenemos cinco archivos) y, a partir de estos valores, comprobemos qué valor se desvía significativamente de los demás. Así que si usted me puede sugerir una solución para 1 fila, puedo hacerlo para todas las filas una por una. Por favor, hágamelo saber si no está claro.