6 votos

R: prueba estadística para identificar muestras con una variabilidad demasiado alta

Me gustaría desarrollar una prueba para identificar qué variables de mi conjunto de datos tienen una variación superior a la "variabilidad media".

Estoy luchando con eso desde hace días, y también he intentado en vano buscar ayuda en otros foros.

Tengo datos de experimentos biológicos, que se parecen a esto:

v1 2 1.8 1.5 1.9 2.1 1.78 1.95 2.0 2.1  
v2 2 100 -5.2  
v3 1 -1.3 -2 2.3  
v4 1 1.5 1.6 1.9 2.1 2.0 2.4 -1.1 2.3 1.5 1.6 1.9 1.8 1.6

Estos representan las expresiones de los genes. Ahora, yo esperaría que todos los valores de cada variable(genes) sean más o menos similares, ya que los valores son medidas repetidas del mismo gen.

Tener una variable con una diferencia tan grande, como v2 , no tiene sentido, porque las mediciones repetidas deberían dar valores consistentes. Por lo tanto, tiene que provenir de un error metodológico y la variable (gen) tiene que ser descartada.

Estaba buscando un método (posiblemente una prueba estadística) en R que pudiera identificar la "variabilidad media" entre mis muestras y me informara de qué variables (genes) tienen una variabilidad significativamente mayor. Esto significa que para estos genes mis datos no son lo suficientemente buenos para estimar la expresión, y tengo que descartarlos.

Agradecería mucho cualquier sugerencia/enlace/consejo/método de prueba que pueda utilizar para mi propósito.

1voto

jws121295 Puntos 36

Acabo de ver esto.

Mi enfoque fue:

  • calcular la media, la desviación estándar y el recuento de cada conjunto de muestras
  • calcular el umbral crítico de t dado alfa, el tamaño de la muestra y la naturaleza del ajuste (cuadrático). Yo estaba usando Excel, así que usé " T.inv ".
  • Transformar los datos restando la media, dividiendo por la desviación estándar y comparando el valor absoluto con el umbral t.
  • Si está por encima del umbral, se clasifica como un valor atípico

Nota: alfa es un parámetro. Si quiere que su ajuste sea más "amplio", utilice un valor menor. Si quiere que se clasifiquen más datos como posibles valores atípicos, utilice un valor más alto. Es excepcionalmente bueno si usted puede tomar el tiempo para entender lo que significa "alfa" en el sentido estadístico de este umbral.

Me he dado cuenta de que tienes filas con 3 muestras - eso es peligroso:

Tener dos muestras y calcular la desviación estándar es como tener una muestra y calcular la media. Las matemáticas te dan un número, pero es lo más escaso en muestras que las matemáticas pueden hacer y seguir dando un valor: está al borde del precipicio del olvido y no es muy informativo. Consigue más muestras.

Hay reglas generales que dicen que 5, 10, 30, 100 o 300 son suficientes. Si vas a estar por debajo de 5, será mejor que tengas una gran defensa de por qué las matemáticas no son malas.

-2voto

La "variabilidad media" que se quiere medir, debe traducirse en Desviación Estándar para la estadística. Es bastante fácil de calcular STD en R, así que busque la definición de desviación estándar en Google para ver si coincide con lo que quiere encontrar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X