R: prueba estadística para identificar muestras con una variabilidad demasiado alta

Question

R: prueba estadística para identificar muestras con una variabilidad demasiado alta

Preguntado el 3 de Julio, 2014: Cuando se hizo la pregunta
1003 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Me gustaría desarrollar una prueba para identificar qué variables de mi conjunto de datos tienen una variación superior a la "variabilidad media".

Estoy luchando con eso desde hace días, y también he intentado en vano buscar ayuda en otros foros.

Tengo datos de experimentos biológicos, que se parecen a esto:

v1 2 1.8 1.5 1.9 2.1 1.78 1.95 2.0 2.1  
v2 2 100 -5.2  
v3 1 -1.3 -2 2.3  
v4 1 1.5 1.6 1.9 2.1 2.0 2.4 -1.1 2.3 1.5 1.6 1.9 1.8 1.6

Estos representan las expresiones de los genes. Ahora, yo esperaría que todos los valores de cada variable(genes) sean más o menos similares, ya que los valores son medidas repetidas del mismo gen.

Tener una variable con una diferencia tan grande, como v2 , no tiene sentido, porque las mediciones repetidas deberían dar valores consistentes. Por lo tanto, tiene que provenir de un error metodológico y la variable (gen) tiene que ser descartada.

Estaba buscando un método (posiblemente una prueba estadística) en R que pudiera identificar la "variabilidad media" entre mis muestras y me informara de qué variables (genes) tienen una variabilidad significativamente mayor. Esto significa que para estos genes mis datos no son lo suficientemente buenos para estimar la expresión, y tengo que descartarlos.

Agradecería mucho cualquier sugerencia/enlace/consejo/método de prueba que pueda utilizar para mi propósito.

Preguntado el 3 de Julio, 2014 por Dmitri Tuchapsky

Answer 1

2 Respuestas

Answer 2

1voto

jws121295 Puntos 36

Acabo de ver esto.

Mi enfoque fue:

calcular la media, la desviación estándar y el recuento de cada conjunto de muestras
calcular el umbral crítico de t dado alfa, el tamaño de la muestra y la naturaleza del ajuste (cuadrático). Yo estaba usando Excel, así que usé " T.inv ".
Transformar los datos restando la media, dividiendo por la desviación estándar y comparando el valor absoluto con el umbral t.
Si está por encima del umbral, se clasifica como un valor atípico

Nota: alfa es un parámetro. Si quiere que su ajuste sea más "amplio", utilice un valor menor. Si quiere que se clasifiquen más datos como posibles valores atípicos, utilice un valor más alto. Es excepcionalmente bueno si usted puede tomar el tiempo para entender lo que significa "alfa" en el sentido estadístico de este umbral.

Me he dado cuenta de que tienes filas con 3 muestras - eso es peligroso:

Tener dos muestras y calcular la desviación estándar es como tener una muestra y calcular la media. Las matemáticas te dan un número, pero es lo más escaso en muestras que las matemáticas pueden hacer y seguir dando un valor: está al borde del precipicio del olvido y no es muy informativo. Consigue más muestras.

Hay reglas generales que dicen que 5, 10, 30, 100 o 300 son suficientes. Si vas a estar por debajo de 5, será mejor que tengas una gran defensa de por qué las matemáticas no son malas.

Respondido el 15 de Julio, 2015 por jws121295 (36 Puntos )

Answer 3

-2voto

Usuario no registrado Puntos 0

La "variabilidad media" que se quiere medir, debe traducirse en Desviación Estándar para la estadística. Es bastante fácil de calcular STD en R, así que busque la definición de desviación estándar en Google para ver si coincide con lo que quiere encontrar.

Respondido el 3 de Julio, 2014 por Usuario no registrado (0 Puntos )

R: prueba estadística para identificar muestras con una variabilidad demasiado alta

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

R: prueba estadística para identificar muestras con una variabilidad demasiado alta

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: