15 votos

Prueba de diferencias significativas en los coeficientes de variables aleatorias normalmente distribuidas

Relacionados con el Análisis de las proporciones de las variables y Cómo parametrizar la relación de dos variables normalmente distribuidas, o la inversa de uno?.

Supongamos que tengo un número de muestras a partir de cuatro diferentes continua distribuciones aleatorias, todo lo cual podemos asumir que son más o menos normal. En mi caso, estos corresponden a algunas de las métricas de rendimiento de dos sistemas de ficheros diferentes (por ejemplo, ext4 y XFS), con y sin cifrado. La métrica puede ser, por ejemplo, el número de archivos creados por segundo, o el promedio de latencia de algunos de operación de archivo. Podemos asumir que todas las muestras extraídas a partir de estas distribuciones siempre será estrictamente positivo. Vamos a llamar a estas distribuciones $\textrm{Perf}_{fstype,encryption}$ donde$fstype \in \{xfs,ext4\}$$encryption \in \{crypto,nocrypto\}$.

Ahora, mi hipótesis es que el cifrado se ralentiza uno de los sistemas de ficheros por un factor mayor que el otro. Hay una prueba sencilla para la hipótesis de $\frac{E[\textrm{Perf}_{xfs,crypto}]}{E[\textrm{Perf}_{xfs,nocrypto}]} < \frac{E[\textrm{Perf}_{ext4,crypto}]}{E[\textrm{Perf}_{ext4,nocrypto}]}$?

25voto

Berek Bryan Puntos 349

Podría caber un modelo lineal generalizado para una distribución normal con una función de enlace de registro.

17voto

bheklilr Puntos 113

Una alternativa a StasK bien la respuesta es el uso de una prueba de permutación. El primer paso es definir una prueba estadística de $T$, tal vez:

$T = \frac{\widehat{Perf}_{ext4,crypto}}{\widehat{Perf}_{ext4,nocrypto}} - \frac{\widehat{Perf}_{xfs,crypto}}{\widehat{Perf}_{xfs,nocrypto}}$

donde $\widehat{Perf}_{ext4,crypto}$ es, quizás, la media muestral de las observaciones de $\text{Perf}_{ext4,crypto}$, etc. (Esto encaja con la definición de la hipótesis como la relación de las expectativas, en lugar de la posibilidad alternativa de la expectativa de la relación - la alternativa que puede ser lo que usted realmente desea.) El segundo paso es al azar permutar las etiquetas de $ext4, \space xfs$ en los datos muchas veces, dicen, $i=1, \dots, 10000$, y calcular el $T_i$ para cada permutación. El paso final es comparar su original $T$ con la observó $T_i$; la permutación-calcula el p-valor será la fracción de la $T_i \leq T$.

La prueba de permutación libera de la dependencia de la asymptotics, pero, por supuesto, dependiendo de su tamaño de la muestra (y los datos también, por supuesto), el método delta, el que yo uso de vez en cuando también, puede funcionar muy bien.

7voto

StasK Puntos 19497

Usted puede calcular el (asintótica) error estándar de la proporción de uso de la delta-método. Si se tienen dos variables aleatorias $X$ $Y$ tal que $$\sqrt{n}\left(\begin{array}{c} \bar X-\mu_X \\ \bar Y-\mu_Y\end{array}\right) \rightarrow N\left( \left( \begin{array}{c} 0 \\ 0 \end{array}\right), \left( \begin{array}{cc} \sigma_{XX} & \sigma_{XY} \\ \sigma_{XY} & \sigma_{YY} \end{array} \right) \right) $$ in distribution (which would be the case if you have independent data, but it would also hold in a more general case of clustered data when you ran your tests on different machines), then for the ratio $r=\bar Y/\bar X$ with the population analogue of $r_o = \mu_Y/\mu_X$, tenemos $$ \sqrt{n}(r-r_0) \N(0,\frac{\mu_Y^2}{\mu_X^4}\sigma_{XX} - 2\frac{\mu_Y}{\mu_X^3}\sigma_{XY} + \frac1{\mu_X^2}\sigma_{YY}) $$ Si $X$ $Y$ son independientes, como podría ser razonable suponer, en su caso, esta expresión se simplifica un poco, dejando de $\sigma_{XY}$, con lo que conseguimos que el cuadrado de los coeficientes de las variaciones suma: $${\rm CV}^2[r] = {\rm CV}^2[\bar X] + {\rm CV}^2[\bar Y]$$ Tiene la ventaja adicional de que el tamaño de la muestra puede ser diferente. Además, si el lado derecho y el lado izquierdo son independientes, puede formar el $z$-estadístico de prueba para $H_0:$ ninguna diferencia al tomar la diferencia de las proporciones y dividiéndolo por el correspondiente error estándar obtenidos a partir de estas CV.

Espero que usted puede tomar desde allí y hacer el resto de la espalda de la envolvente de los cálculos para obtener el resultado final de la fórmula.

Tenga en cuenta que el resultado es asintótica, y la relación de $r$ es un estimador sesgado de $r_0$ en muestras pequeñas. La parcialidad de la orden de $O(1/n)$, y desaparece asintóticamente cuando se compara a la variabilidad del muestreo, que es de la orden de $O(1/\sqrt{n})$.

0voto

becky Puntos 11

La relación de la Normalidad variables se distribuye de Cauchy. Sabiendo que, puede realizar simplemente un Factor de Bayes de la Prueba.

Esto era más bien una idea espontánea. Ahora estoy seguro acerca de los datos de generación de mecanismo. No instalar los diferentes sistemas de archivos en el mismo PC y, a continuación, punto de referencia para los dos casos, por lo que podemos asumir una estructura de datos jerárquica?

También no estoy seguro de en busca de proporciones realmente tiene sentido.

Y entonces escribí la relación de los valores esperados, mientras que yo pensaba de el valor esperado de la proporción. Supongo que necesito más información acerca de la generación de datos antes de continuar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X