1 votos

Comparación de conjuntos de datos de 2 réplicas biológicas

Tengo dos conjuntos de datos que contienen datos de experimentos basados en dos réplicas biológicas. Me pregunto cuáles son los mejores métodos estadísticos para averiguar y comprobar el grado de similitud de estos dos conjuntos de datos, y también cómo puedo mostrar los resultados de forma gráfica, ya que cada uno de los conjuntos de datos contiene miles de filas. Me gustaría hacer este análisis en R. Gracias

Editar:

Muestra de datos:

        Rep1    Rep2
Row1    1.0426  1.1337
Row2    -2.21   -2.1997
Row3    0.5002  0.6933
Row4    -4.2332 -3.9332
Row5    0.9000  0.8700

2voto

Travis Collins Puntos 1428

Puedes empezar por trazar esas 2 variables en un gráfico de dispersión, y también trazar una línea y=x. Si tus datos son un objeto dataframe llamado DATA, puedes ejecutar

plot(DATA$Rep1~DATA$Rep2)
abline(0,1)

Si los puntos se alinean en una línea muy cercana, las dos variables están muy correlacionadas. Si esos puntos están cerca de la línea y=x, entonces los valores numéricos están cerca el uno del otro.

Por las primeras 5 filas de tus datos, sospecho que la correlación es alta y positiva, y que caerán muy cerca de la línea.

0voto

rnso Puntos 2424

Además de la visualización gráfica aconsejada por Hotaka, también se puede realizar la siguiente prueba:

  1. Correlación de Pearson: para ver el grado de correlación
  2. Se puede calcular la diferencia de cada par de valores. Los estadísticos descriptivos de las diferencias serán informativos en cuanto a la media y la DE de la diferencia, el rango, la diferencia máxima y la media.
  3. Si hay algún orden en el que se han enumerado las filas, un gráfico del número de fila en el eje x y la diferencia en el eje y mostrará en qué área hay más diferencia.

Si publica en su pregunta lo que significan exactamente los números, se podrán sugerir mejores métodos, por ejemplo, el posible papel de los gráficos de residuos del análisis de regresión. Además, hay muchos paquetes disponibles para el análisis genético que pueden ser útiles en este caso.

Edición: Si está utilizando R y su data.frame es mydf, entonces este comando le dará las diferencias y su resumen:

mydf$diffs = with(mydf, Rep2-Rep1)
summary(mydf$diffs)

Puede considerar ver las diferencias en valores brutos en lugar de estos valores de registro. Puede graficar estas diferencias y su densidad en orden de filas siguiendo los siguientes comandos simples

plot(mydf$diffs)
plot(density(mydf$diffs))

Para más preguntas relacionadas con los comandos de R, debe publicar en http://stackoverflow.com

Hay muchos paquetes de genética que aparecen en http://cran.r-project.org/web/views/Genetics.html . Bioconductor ( http://www.bioconductor.org/ ) puede ser especialmente útil.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X