3 votos

Prueba estadística para encontrar posiciones significativas con valores desviados

Tengo cerca de 50 ficheros(cada fichero corresponde a un paciente) con 4 columnas -

chromosome     start.position       stop.pos       value

Las 3 primeras columnas de los 50 ficheros son iguales y la cuarta columna es el valor que es diferente (o puede ser el mismo para algunos) para todos los pacientes. Básicamente este valor corresponde al número de copias (variación estructural en el genoma). Quiero aplicar alguna prueba (o si puede sugerir algún otro procedimiento) para encontrar los valores que se desvían en comparación con los demás. Ejemplo-

file1    chromosome     start.position       stop.pos           value
      1              10                  110             4
      2              100                 200             5
      2              500                 600             0.5 

archivo2

chromosome     start.position       stop.pos           value
      1              10                  110             2.5
      2              100                 200             6
      2              500                 600             0.6 

archivo3

chromosome     start.position       stop.pos           value
      1              10                  110             3
      2              100                 200             5.5
      2              500                 600             3.5 

archivo4

chromosome     start.position       stop.pos           value
      1              10                  110             2
      2              100                 200             0.9
      2              500                 600             3 

archivo5

chromosome     start.position       stop.pos           value
      1              10                  110             8
      2              100                 200             4.5
      2              500                 600             2.5 

Así, en la salida, el fichero 5 tiene un valor significativo (en comparación con la misma posición de otros ficheros) en la fila 1, el fichero 4 tiene un valor significativo en la fila 2 y el fichero 1 y el fichero 2 tienen un valor significativo en la fila 3.

Tengo una solución en mente: elegir una fila de cada archivo y sacar la media de los valores. Luego comparar este promedio con cada archivo y devolver la posición si es significativo en comparación con el promedio. Pero creo que debería haber alguna solución mejor para esto. ¿Puede usted por favor sugerir cualquier prueba o cualquier otro procedimiento que se utiliza para completar esta tarea.

Gracias de antemano.

EDIT: Después de leer el comentario de Joel.

Sí, tengo una pregunta concreta en mente. Como he mencionado, estos archivos corresponden a cada paciente, por lo que estoy tratando de encontrar si un paciente tiene un aumento significativo (o disminución) en el valor en cierta posición (es decir, fila). Ok podemos hablar de sólo 1 fila ahora. Consideremos 1 posición (1 fila), tomemos los valores (en este caso, para la primera fila tendremos 5 valores, ya que tenemos cinco archivos) y, a partir de estos valores, comprobemos qué valor se desvía significativamente de los demás. Así que si usted me puede sugerir una solución para 1 fila, puedo hacerlo para todas las filas una por una. Por favor, hágamelo saber si no está claro.

2voto

mat_geek Puntos 1367

Si busca un valor atípico en una pequeña prueba de variables, hay Prueba de la relación de Dixon y Prueba de Grubbs diseñados para detectar valores atípicos en muestras distribuidas normalmente. La prueba de Dixon es más sencilla y se ha aplicado a menudo para encontrar valores atípicos en grupos pequeños. Publiqué un artículo sobre la prueba de Dixon para demostrar que funciona bien para algunas poblaciones no normales también en muestras pequeñas (de 3 a 5). Hay variantes de la prueba que tratan situaciones en las que puede haber dos valores atípicos y el segundo más grande puede enmascarar el valor más grande. Mi artículo " Nota sobre la robustez de la prueba de la proporción de Dixon en muestras pequeñas " El Estadístico Americano 1982.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X