5 votos

¿Cómo comparar una muestra contra algunos datos de referencia?

En primer lugar, permítanme describir la situación en que me estoy tratando con:

Estoy mirando los datos de rendimiento de un sistema de software. Tengo los datos para muchas versiones del software, incluyendo en curso. Para cada versión que tengo una serie de valores para los tiempos de ejecución de las pruebas se ejecutan en contra de ella, generalmente alrededor de 20 (de la misma prueba). Estos, en general, distribuido normalmente (para cada versión).

Lo que quiero saber es, dado que algunos datos se ejecuta en contra de una nueva versión, es la nueva distribución diferente de una manera que merece investigación. La comparación podría ser en contra de la versión anterior, o en contra de un conjunto de versiones anteriores que han sido seleccionados como tener "estable" rendimiento: una especie de línea de base. Cualquier tipo de cambio puede ser relevante: un cambio en la media, la varianza o la forma podría ser significativo.

Ahora, las diferentes versiones son diferentes, pero para aquellos en la línea de base creo que puedo asumir que está efectivamente muestras de la misma distribución. Por lo que he conseguido $X_1, ... X_n, X'$$n \geq 1$, y quiero probar si $X'$ es relevantemente similar a la $X_i$s de una forma automatizada.

Por lo que he visto en internet me he encontrado con un par de opciones:

a) prueba de Kolmogorov-Smirnov: $X'$ vs $X_n$ o de $X'$ vs $\bigcup X_i$.

b) prueba T: de la misma manera.

c) test de Mann-Whitney/prueba de Wilcoxon?

En primer lugar, no me queda claro que sería mejor para mi situación, ya que tanto la prueba para los diferentes tipos de "similitud", o si debo utilizar ambos y el informe de la combinación de algunos de los resultados.

En segundo lugar, la observación de los datos, parece que el $X_i$, mientras que distribuye normalmente, tienden a moverse un poco: por lo que sus medios varían, pero, por ejemplo, la varianza es similar. Si acabo de bulto en uno de los grandes de la muestra, a continuación, esta información se pierde; por ejemplo, se verá como en la típica varianza es mucho más grande de lo que realmente es. Por eso me preguntaba si yo podría ser capaz de en lugar de mirar a la distribución de las medias y varianzas de las $X_i$s, y comparar la media y la varianza de $X'$ contra el que, de alguna manera.

Sin embargo, estoy seguro de cómo hacerlo: creo que los medios deben seguir una distribución t, así que debería ser capaz de estimar la probabilidad de contraer $\bar{X'}$ dado que las muestras provienen de la misma distribución, pero que el mal probabilidad condicional! (aunque eso es algo de lo que un p-valor es...) no voy a poder hacer un buen t-test como el que requiere de más de un valor a comparar, o en el supuesto de que la varianza compartida, que no estoy seguro de que tengo.

Por último, en mi interior Bayesiano se siente como debería ser capaz de hacerlo mejor que la producción de valores de p para rechazar la hipótesis nula: seguramente debería ser capaz de calcular la probabilidad posterior de que $X'$ es decir, a partir de la misma distribución que la $X_i$s?

Disculpas por la pregunta enorme; espero que esto te da una idea razonable de dónde vengo! Estoy matemáticamente entrenado, pero estoy bastante familiarizado con las estadísticas, por lo que puedo hacer frente a algunos de matemáticas.

Edit: yo también estoy familiarizado con R, la voy a usar para hacer los cálculos... una vez que averiguar lo que para calcular!

1voto

David Joyner Puntos 4994

Yo, normalmente, tienen un Bayesiano de sesgo, pero Si he entendido correctamente, creo que Frecuentista la prueba de hipótesis es bastante apropiado.

Creo que usted probablemente querrá hacer una prueba t de cada una de las $X_i$$X'$. Esto le dirá si la media de una determinada versión es significativamente diferente de la media de la línea de base.

Usted también puede hacer una prueba F, que comprueba si las varianzas son diferentes.

También puede considerar la posibilidad de computación Bayesiana creíble intervalo para la diferencia de medios y ver si 0 está fuera de eso. Echa un vistazo Bolstad del libro el Capítulo 12. Probablemente hay también un intervalo creíble para el cociente de varianzas.

Con más sofisticado Bayesiano enfoques que probablemente podría sqeeze un poco más de información de datos, pero creo que usted está probablemente mucho mejor de hacer esto y la recolección de más datos si es necesario.

No creo que usted quiere a la piscina de la $X_i$'s, debido a que le dirá si la muestra de la media ponderada de la versión de pruebas es diferente de $X'$. Si yo te entiendo, esto no es lo que usted está interesado en, usted está interesado en que las versiones son diferentes.

Si usted está interesado en las versiones que van más allá de la variación normal entre versiones, entonces usted tendrá que hacer algo más complejo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X