8 votos

Prueba si 2 conjuntos de datos exponencialmente distribuidos son diferentes

Tengo 2 exponencialmente distribuido conjuntos de datos y quiero estar seguro de que son de diferentes distribuciones. Desafortunadamente necesaria de error en la detección de los datos me obliga a descartar todos los datos bajo un cierto umbral. En cada conjunto que tengo cerca de 3000 puntos de datos y el trazado de los datos que me hace pensar que la lambda valor es diferente. Ajuste también los rendimientos de los diferentes valores de lambda.

¿Cómo puedo estar seguro de que los datos proceden de una distribución diferente?

Aquí una parcela de cómo los conjuntos de aspecto (tenga en cuenta que todos los valores de toda la vida=3sec tienen que ser descartados):

UPDATE: El por encima de las distribuciones son en ambos casos normalizado sobre N sólo para comparar mejor en un gráfico debido a que el número total de puntos de datos N es diferente.

UPDATE2: Después de truncamiento tengo alrededor de 150 valores de vida útil de la red de datos y 350 azul para el conjunto de datos. Resulta que 3000 fue exagerada (lo siento).

UPDATE3: Gracias por dar conmigo. Aquí es los datos crudos:

http://pastebin.com/raw.php?i=UaGZS0im

http://pastebin.com/raw.php?i=enjyW1uC

Hasta ahora me ajustó una función exponencial a ambos conjuntos de datos y la comparación de las pendientes. Desde cualquier normalización no debe cambiar la pendiente de los datos de diferentes pendientes debe implicar subyacentes diferentes distribuciones exponenciales (Mi experiencia con el análisis estadístico es muy limitada).

Los valores por debajo del umbral se descartan debido a que la medida detecta muchos eventos muy a menudo en ese régimen.

UPDATE4: me di cuenta de que mi problema es mucho más complicado de lo que pensaba. De hecho he dejado censurados (no sé el inicio de algunos de los eventos) y a la derecha censurados (no sé el final de algunos de los eventos) de datos Y tengo que descartar todas las vidas menores de 3 años (truncamiento). Es allí cualquier manera de incorporar todo esto en un análisis? Hasta ahora he encontrado un poco de ayuda sobre cómo trabajar con datos censurados (análisis de supervivencia), pero ¿qué debo hacer con el truncamiento?

5voto

Sean Hanley Puntos 2428

Exponencialmente distribuidos de tiempos de vida son especialmente un caso sencillo para el análisis de supervivencia. El análisis de ellos es a menudo el primer ejemplo trabajado para lograr que los estudiantes se inició antes de pasar a las situaciones más complicadas. Además, el análisis de supervivencia es, naturalmente adecuado para datos censurados. En resumen, le sugiero que utilice el análisis de supervivencia con una agrupación indicador para las dos distribuciones como un efecto del tratamiento. Usted podría utilizar un modelo paramétrico (por ejemplo, el modelo Weibull, como la exponencial es un caso especial de la Weibull), o puede utilizar los métodos no paramétricos, tales como la prueba de log-rank, si lo prefiere.

2voto

TrynnaDoStat Puntos 3590

Usted está interesado en la siguiente prueba: $H_0: \lambda_1 = \lambda_2$ donde $\lambda_i$ es el único parámetro que identifica la distribución exponencial que usted está tratando. Desde $\lambda$ corresponde también a la media de esta distribución es esencialmente interesado en la prueba de la diferencia de los medios en estas dos distribuciones.

Puesto que usted tiene un gran tamaño de muestra, para probar esto se puede apelar al teorema central del límite que nos dice lo siguiente:

Teorema del Límite Central: supongamos $X_1, X_2, ...X_n$ es una secuencia de yo.yo.d. variables aleatorias con $E[X_i] = \mu \text{ and } Var[X_i] = \sigma^2 < \infty$. Entonces como $n$ enfoques infinito, la variable aleatoria $\sqrt{n}(\bar{X} − \mu)$ converge en distribución a una normal $N(0, σ^2)$ distribución.

En otras palabras, su ejemplo que significa para cada uno de los dos grupos son aproximadamente distribuidos normalmente. Dado que usted no sabe el verdadero valor de $\sigma^2$, usted puede realizar una realizar una prueba t para diferencia de los medios.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X