5 votos

¿Cuándo puedo decir que existe una relación entre eventos?

Yo soy el análisis de un clima de datos para un curso de informática para el uso de hadoop.Estoy tomando todos los relacionados con el tiempo los problemas fuera de los análisis y que sólo buscan estrictamente en los ojos de estadísticas.

Digamos que hay 2 eventos 1 se produce 250 veces en el año, y el otro se produce el evento de 50 veces en un año. El segundo evento se produce cada día el primer caso ocurrió. Puedo decir que hay una relación entre los dos eventos? No estoy seguro de si es seguro decir que hay una buena probabilidad de que hay una relación entre los datos, ya que esto podría ser una coincidencia. Por ejemplo, si el evento se produjo Un 25 veces al año y el evento B se produjo el 15 de veces de nuevo el evento B ocurre cada vez que Un evento ocurrió que yo sería más seguro para decir que hay una relación entre los dos eventos, ya que hay menos probabilidades de que esto es una coincidencia debido a la cantidad de veces que Un evento ha ocurrido. Para decirlo en otras palabras, digamos que Un evento ocurrió 365 veces en el año y el evento B producido 10 veces en el año, el evento B, se producen cada vez que Un evento ocurrió, pero esto es sólo debido a Un evento ocurrido cada día así que no hay relación. ¿Hay algún tipo de estándar a decir que cuando dos eventos han estadísticamente una alta probabilidad de tener una relación de algún tipo?

él dataset de verificación para las relaciones en el corto plazo y a largo plazo (revise para ver si hay una relación reciente decir que en los últimos 3 meses, 1 año, pero también más de 4 años, 8 años, 10 años). Yo sé que por más de 10 años, puedo confiar que si ocurrieron los eventos siempre juntos probablemente hay una buena probabilidad de una relación debido a la gran momento, pero para distancias cortas, ¿hay algún tipo de método?

Espero que esto tenga sentido.

4voto

AdamSane Puntos 1825

En el respeto de un solo día, el día de la ii, considerar los cuatro eventos compuestos:

1) se produjo y B ocurrido.
2) se produjo y B no.
3) no se produce a y B hicieron.
4) Ni Una ni B ocurrido.

Para cada día, una de estas cuatro situaciones se produce.

El conocimiento de los cuatro puede ser utilizado para decidir si la ocurrencia de a y B son dependientes (ya sea relacionados de manera positiva o negativa).

Para aclarar la notación, vamos a Xi=1Xi=1 si AA se produce en el día ii =0=0 lo contrario. Deje Yi=1Yi=1 si BB se produce en el día ii =0=0 lo contrario.

Si suponemos además que no hay independencia a través de días-que P(Xi=1|Xj=1)=P(Xi|Xj=0)P(Xi=1|Xj=1)=P(Xi|Xj=0) todos los jiji, y de manera similar para el acondicionamiento en YjYj y para el acondicionamiento de las combinaciones de XjXj y YkYk.

En ese caso se puede utilizar una prueba de independencia. El mas empleado es el test de chi-cuadrado, a pesar de mencionar algunas otras posibilidades en el futuro.

Deje Zlm(i)=1Zlm(i)=1 si Xi=lXi=lYi=mYi=ml=(0,1)l=(0,1)m=(0,1)m=(0,1).

Es decir, que Z00(i)=1Z00(i)=1 si Xi=0Xi=0Yi=0Yi=0, y así sucesivamente.

Además, vamos a O(l,m)=iZlm(i)O(l,m)=iZlm(i), por lo que el OO valores de representar a la cuenta de la frecuencia con la combinación de Una o no Un co-ocurre con B o no B

A continuación, construir una tabla de contingencia:

               (not-B)    (B)
                 Y=0      Y=1     
(not-A) X=0     O(0,0)  O(0,1)
  (A)   X=1     O(1,0)  O(1,1)

A continuación, estos datos se presentan en forma adecuada para una chi-cuadrado, o un G-o prueba de Fisher-Irwin prueba (de la que el chi-square es el más conocido). Una alternativa sería una de dos proporciones de muestra de prueba (por decir como un Z-test).

[Esto puede ser demasiado fuerte una suposición, en cuyo caso la alternativa de análisis que lidiar con la dependencia del tiempo debe ser utilizado]


1 se produce 250 veces en el año, y el otro se produce el evento de 50 veces en un año. El segundo evento se produce cada día el primer caso ocurrió. Puedo decir que hay una relación entre los dos eventos?

Vamos a convertir esto en el marco descrito. Dado un año de 365 días, es posible trabajar cada combinación a partir de esa información (toma un poco de pensamiento, pero usted puede conseguir allí):

                (not-B)   (B)       Tot
                 Y=0      Y=1     
(not-A) X=0      115        0       115
  (A)   X=1      200       50       250

Tot.             315       50       365

Esto se obtiene un chi-cuadrado de alrededor de 25.0 o 26.7 dependiendo de si la continuidad se aplica la corrección, que (a menos que usted había elegido un increíblemente pequeño nivel de significación para empezar) podría conducir al rechazo de la nula de no asociación entre la aparición de la Una y la ocurrencia de B.

En los casos en los que los valores esperados en algunas celdas pueden ser pequeñas (del orden de 1 o 2, por ejemplo), Yates, la continuidad de la corrección puede ayudar un poco con la mejora de la chi-cuadrado aproximado.

[En el ejemplo, donde a y B sólo se producen 15 veces juntos y se produce sólo 25 veces, el expecteds podría ser un poco demasiado pequeño para aplicar el test de la chi-cuadrado aproximado.]

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X