6 votos

¿Es la inspección visual la única forma de comparar grandes conjuntos de datos?

Tengo dos grandes conjuntos de datos, de hecho, uno de ellos es incluso mucho más grande que el otro.

Visualmente, no parece haber mucha diferencia entre ellos:

comparing gene targets from different algorithms depending upon whether they have a miRNA inside

Los datos reales subyacentes al gráfico de caja no se distribuyen normalmente y no se normalizan bien con las transformaciones. Son más o menos la misma distribución (es decir, las distribuciones del SÍ y del NO para cada algoritmo), pero las grandes diferencias de tamaño de los datos hacen que otras pruebas sean un poco inútiles. He aplicado la prueba de Kolmogorov-Smirnov de dos muestras, aunque probablemente sea errónea y dé resultados muy significativos.

Mis preguntas son:

1) ¿Producen las pruebas estadísticas sobre grandes conjuntos de datos resultados significativos, incluso si existen pequeñas diferencias entre las dos muestras? La "ligereza" se ve magnificada por los enormes puntos de datos.

2) ¿Es mejor la inspección visual con grandes conjuntos de datos en lugar de aplicar pruebas no paramétricas y paramétricas en las que se pueden violar ciertos supuestos subyacentes?

3) Para estos datos, ¿cuál es la mejor forma de actuar?

Editar

Mis datos tienen una estructura como :

Mis datos son de la forma

Name    Bind    miRNA
a       300     NO
b       500     YES
c       140     YES
d       2345    NO

13voto

dan90266 Puntos 609

Sugiero que se resuma la diferencia con una medida general robusta que no depende de la normalidad: la probabilidad de concordancia que proviene de la prueba de dos muestras de Wilcoxon-Mann-Whitney. La proporción de concordancia estima la probabilidad de que un valor elegido al azar del grupo A supere a un valor elegido al azar del grupo B. Esto puede generalizarse a su escenario de "emparejamiento de pares" en el que puede estimar la probabilidad de que el método 1 proporcione mediciones que sean "más concordantes" entre A y B que el método 2. Esto se implementa en el programa R Hmisc paquete rcorrp.cens función.

6voto

icelava Puntos 548
  1. Sí, este es uno de los principales problemas de las pruebas estándar de bondad de ajuste en grandes conjuntos de datos.

  2. Yo preferiría la inspección visual, así como las medidas del tamaño del efecto. Incluso si hay un gran solapamiento en las distribuciones, una mejora del 15% en algún KPI puede ser muy útil. No me importaría demasiado las distribuciones específicas, dependiendo de su aplicación concreta. Además, los gráficos de caja son formas bastante burdas de mostrar los datos. He aquí algunas alternativas.

  3. Es difícil de decir, ya que no conocemos sus datos... Mi sugerencia sobre los tamaños de los efectos ya puede ser útil.

4voto

Zizzencs Puntos 1358

No hay nada malo en los resúmenes estadísticos de grandes conjuntos de datos. Si un método es apropiado con N = 100, entonces lo es con N = 100.000 o 100.000.000.

Sin embargo, hay algo que no funciona en la forma en que la mayoría de la gente interpreta los valores p. La respuesta a su primera pregunta es "sí", pero esa respuesta no es más que otra indicación de que debe fijarse en el tamaño del efecto, no en el valor p.

En cuanto a su segunda pregunta: La inspección visual es fundamental con conjuntos de datos grandes o pequeños. Pero la comparación numérica es muy útil también con ambos. Su utilidad no depende del tamaño del conjunto de datos.

En cuanto a su tercera pregunta: Utilice tanto comparaciones visuales como numéricas. Elija tanto el método visual como el numérico que 1) se adapte a sus datos y 2) se adapte a las preguntas que quiere hacer sobre sus datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X