7 votos

La prueba de hipótesis de que uno de series de tiempo de una medida de la entropía no pertenecen a una población

Descargo de responsabilidad: yo soy un ingeniero de software, no un estadístico, así que por favor perdonen cualquier contundente de error :-)

Tengo un conjunto de series de tiempo "curvas", cada uno mide la entropía de un determinado artefacto. Ahora, estoy de pie sobre las siguientes premisas (por favor, criticar como mejor le parezca):

  1. Con el fin de aproximar los límites superiores de la complejidad de Kolmogorov $K(s)$, de una cadena de $s$, uno simplemente puede comprimir la cadena $s$ con algún método, la implementación de las correspondientes descompresor en el idioma elegido, concatenar el descompresor para el comprimido de la cadena, y medir el resultado longitud de la cadena.
  2. Para este propósito, he usado el bzip2 aplicación, estableciendo su nivel de compresión a las máximas admitidas (-9).
  3. Si sólo se está interesado en un análisis de series temporales de un conjunto de la evolución de las cadenas, el cálculo de los comprimidos deltas es suficiente para presentar una medida relativa de la entropía entre dos cadenas de caracteres (al menos esa es mi interpretación después de leer Cilibrasi05).
  4. Por eso, he utilizado el diff unix herramienta, con la (--mínima) de un parámetro, seguido de nuevo un bzip2 compresión, con los mencionados valores.

Estoy haciendo esto para analizar la evolución de la entropía en un artefacto de software (código, modelo, lo que sea). Estoy no preocupado con los valores absolutos, pero con el relativo aumento (o disminución) en la entropía. Ahora aquí viene el problema:

  1. He hecho esto para un conjunto de 6 de artefactos, los cuales deben pertenecer a la misma población, pero no sé cómo proporcionar evidencia estadística de que (los correspondientes de hacer una de dos colas prueba de t de dos muestras).
  2. Uno de los artefactos de la evolución debe ser diferente de todos los demás. Estamos hablando de algo así como una exponencial v. s. sub-crecimiento lineal. ¿Cómo puedo proporcionar evidencia estadística de que?

De nuevo, la responsabilidad de ser un ingeniero de software. Aunque yo le agradezco a todos los referentes académicos (artículos, libros, etc.) usted podría manejar, estoy buscando algo pragmático que puedo usar en los próximos días, como una secuencia de comandos en R, o algo en el programa SPSS.

P. S. lo siento por preguntar para una receta, en lugar de una explicación teórica.

6voto

jldugger Puntos 7490

Tengo una solución relativamente simple para proponer, Hugo. Porque eres honesto acerca de no ser un estadístico (a menudo un plus ;-) pero, obviamente, no puede manejar el lenguaje técnico, voy a tomar algunos dolores técnicamente claro, sino para evitar la jerga estadística.

Vamos a empezar por la comprobación de mi entendimiento: tiene seis series de datos (t[j,i], h[j,i]), 1 <= j <= 6, 1 <= i <= n[j], donde t[j,i] es el tiempo que se mide la entropía h[j,i] para el artefacto j y n[j] es el número de observaciones realizadas de artefacto j.

Podemos muy bien suponer t[j,i] <= t[j,i+1] es siempre el caso, pero parece que usted no necesariamente suponga que t[1,i] = ... = t[6] para todo i (sincrónica de las mediciones) o incluso que t[j,i+1] - t[j,i] es una constante para cualquier j (igual incrementos de tiempo). Podríamos así también supongamos que j=1 designa su artefacto especial.

Necesitamos un modelo para los datos. "Exponencial" versus "sublinear" cubre mucho terreno, lo que sugiere que debe adoptar un muy amplio (no paramétrica) modelo para el comportamiento de las curvas. Una cosa que simplemente distingue a estas dos formas de evolución es que los incrementos h[j,i+1] - h[j,i] en la exponencial caso será cada vez mayor, mientras que para cóncava sublinear crecimiento de los incrementos va disminuyendo. Específicamente, los incrementos de los incrementos,

d2[j,i] = h[j,i+1] - 2*h[j,i+1] + h[j,i], 1 <= i <= n[j]-2,

va bien tienden a ser positivo (para el artefacto 1) o negativo (para los demás).

Una gran pregunta se refiere a la naturaleza de la variación: la observó entropías podría no ajustarse exactamente a lo largo de cualquier curva agradable; pueden oscilar, aparentemente al azar, alrededor de algunas curva ideal. Debido a que usted no quiere hacer ninguna de modelos estadísticos, no vamos a aprender mucho acerca de la naturaleza de esta variación, pero vamos a esperar que la cantidad de variación de cualquier artefacto j es típicamente de aproximadamente el mismo tamaño para todos los tiempos t[j,i]. Esto nos permite escribir cada uno de entropía en el formulario

h[j,i] = y[j,i] + e[j,i]

donde y[j,i] es la "verdadera" de la entropía para el artefacto j en el tiempo t[j,i] y e[j,i] es la diferencia entre lo observado en la entropía h[j,i] y la verdad de la entropía. Podría ser razonable, como un primer corte a este problema, con la esperanza de que el e[j,i] acto al azar y parecen ser estadísticamente independientes el uno del otro y de la s[j,i] y t[j,i].

Esta configuración y estos supuestos implican que el conjunto de incrementos de un segundo para el artefacto j, {d2[j,i] | 1 <= i <= n[j]-2}, no necesariamente será totalmente positiva o totalmente negativo, pero que cada conjunto debe de ver como un montón de (potencialmente diferentes) números positivos o negativos, además de algunos de fluctuación:

d2[j,i] = (y[j,i+2] - 2*s[j,i+1] + y[j,i]) + (e[j,i+2] - 2*e[j,i+1] + e[j,i]).

Todavía no estamos en un clásico de la probabilidad de contexto, pero estamos cerca si nos (mal, pero tal vez no mortales) el tratamiento de la correcta incrementos de un segundo (s[j,i+2] - 2*s[j,i+1] + y[j,i]) como si fueran números extraídos al azar de algún cuadro. En el caso de artefacto 1 su esperanza es que este es un cuadro de todos los números positivos; para los demás artefactos, su esperanza es que se trata de una caja de todos los números negativos.

En este punto podemos aplicar algún tipo de norma de maquinaria para la prueba de hipótesis. La hipótesis nula es que los verdaderos incrementos de un segundo son todos (o la mayoría de ellos) negativos; la hipótesis alternativa que cubre todas las otras 2^6-1 posibilidades en cuanto a los signos de los seis lotes de incrementos de un segundo. Esto sugiere que ejecuta una prueba t por separado para cada colección de la real incrementos de un segundo para compararlos contra cero. (No paramétrica equivalente, tal como una señal de prueba, estaría bien, también.) El uso de una corrección de Bonferroni con estas previsiones de comparaciones múltiples; es decir, si quieres prueba a un nivel de alfa (por ejemplo, 5%) para alcanzar un deseado "valor de probabilidad," el uso de la alfa/6 valor crítico para la prueba. Esto puede fácilmente ser hecho incluso en una hoja de cálculo si te gusta. Es rápido y sencillo.

Este enfoque no va a ser el mejor porque entre todos los que pueda ser concebido: es uno de los menos poderosos y todavía hace algunos supuestos (como la independencia de los errores); pero si funciona, es decir, si usted encuentra los incrementos de un segundo para j=1 a ser significativamente por encima de 0 y todos los demás a ser significativamente por debajo de 0, entonces se habrá terminado su trabajo. Si este no es el caso, sus expectativas, todavía podría ser correcta, pero se necesitaría una mayor modelado estadístico esfuerzo para analizar los datos. (La siguiente fase, si es necesario, podría ser el de buscar las pistas de incrementos para cada artefacto para ver si hay evidencia de que , finalmente, cada curva se convierte en exponencial o sublinear. También debe incluir un análisis más profundo de la naturaleza de la variación en los datos.)

1voto

alexp206 Puntos 899

Usted puede hacerlo todo en Excel.

El trazado de la seis de la serie de tiempo debería de darte una idea de la forma de las curvas. Digamos que, como usted ha mencionado, cinco de las curvas parecen ser exponencial y la sexta se ve como crece sub-lineal.

Insertar una línea de tendencia para cada curva. Si usted está a la derecha, cinco de ellos va a proporcionar el mejor ajuste (medido por r al cuadrado) con una línea de tendencia exponencial, mientras que el sexto se ajustaron a una línea de tendencia logarítmica.

Esto puede sonar no determinista, pero si todos los seis valores de r cuadrado son cerca de 1 usted puede estar bastante seguro de su resultado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X