9 votos

Prueba de Kolmogorov-Smirnov?

Estoy estudiando la perturbación causada por el tráfico de barcos a un pequeño de aves marinas. He observado focal de los animales para una cantidad de tiempo y registrar si o no ellos vuelan desde el agua durante la observación. Este pájaro no vuela a altas probabilidades cuando no perturbado (aproximadamente el 10% del tiempo). Post hoc, he anexado a la distancia más cercana a la nave para cada observación (barcos de interés localizadores GPS grabación de un punto cada 5 seg.).

He trazado la función de distribución acumulativa para TODAS las observaciones y de las observaciones en las que el pájaro voló desde el agua como una función de la distancia más cercana a la nave. Como era de esperar, la mayoría de las observaciones en la que el pájaro voló se observaron cuando el barco estaba cerca.

ecdf plot, fly, did not fly, all obs

¿Puedo utilizar el test de Kolmogorov-Smirnov para comprobar si hay una diferencia estadística en la distribución del vuelo de las observaciones y el total de observaciones? Mi pensamiento es si estas dos distribuciones son diferentes, se podría sugerir que la nave distancia tiene una influencia sobre el vuelo. Me preocupa ya que estas funciones de distribución no son independientes como el vuelo de las observaciones son un subconjunto del total de observaciones.

Los pensamientos?

Después de haber leído un poco más en este sitio creo que puedo probar la distribución de las observaciones en las que el vuelo se produjo (F) en contra de la distribución de las observaciones en las que no lo hicieron (NF), ya que estos son independientes. Si estas distribuciones son la misma F=NF, entonces podemos asumir que la distribución de (F) y (TOT = todas las observaciones son las mismas que sabemos que la distribución de (F) es igual a sí mismo y (F)+(T) = (TOT). A la derecha?

ACTUALIZACIÓN: 2/12/14

Siguiendo las sugerencias de @Scortchi he investigado la relación de la incidencia de vuelo vs distancia más cercana a la nave en una regresión logística marco. Hubo una ligera relación presente (pendiente negativa), pero el valor de p fue no significativo, lo que sugiere que la verdadera pendiente podría ser cero. Basado en el desciptive estadísticas (incluyendo la ecdf parcelas) tengo la sospecha de que el efecto de cierre de las naves estaba siendo ahogado por las muchas observaciones que cuando el barco no estaba afectan al comportamiento. A continuación, utiliza el paquete de R segmentado (http://cran.r-project.org/web/packages/segmented/segmented.pdfpara intentar encontrar un punto de ruptura en el modelo. El programa encontró que la ruptura de los datos a 2,6 km de la nave y ajuste independiente de dos coeficientes era mejor que el único modelo de coeficiente. El coeficiente de la pendiente de la estrecha nave enfoques fue negativo y sugiere que los buques que afectan a la respuesta del vuelo hasta alrededor de 2.6 km (p-valor < 0.001). El coeficiente para la segunda vertiente fue ligeramente positivo, pero el valor de p no fue significativa en el nivel alfa de 0.05 (p-valor = 0.11). Así que en resumen, la segmentación de la línea de regresión fue capaz de detectar un umbral de diferencia en que vuelo probabilidad aumenta. La estimación de la probabilidad de vuelo cuando el barco está a más de 2.6 km es de 0,11. Como era de esperar, he observado 79 aves en cuando no hay barcos estaban incluso en el estudio de la bahía (> 100 km) y el 9 de estos individuos voló desde el agua durante el tiempo de observación (0.113 probabilidad).

Gracias por todas las sugerencias. Espero que esta pregunta junto con las sugerencias y respuestas que ayuda a los demás.

1voto

christy Puntos 51

Problema interesante. Tengo dos pensamientos, uno general y uno acerca de cómo caracterizar sus datos...

En primer lugar, con respecto a la comparación de las distribuciones estoy de acuerdo con @Glen_b y @Scortchi que usted no desea comparar la Mosca vs All, como se muestra en el gráfico (pero buena idea de superposición de la trama de la D estadística). Debido a que tienen una fuerte creencia acerca de donde las distribuciones de probabilidades de ser diferente, y no sólo que son diferentes, usted puede ser que desee considerar la comparación de cuantiles de las dos distribuciones. Hay un buen post en el blog sobre el tema que se trabaja a través de código R para desarrollar el método de prueba. Y hay un paquete de R, los REPRESENTANTES de la oms, que implementa cuantil basado en métodos de prueba.

Segundo, me gustaría considerar la posibilidad de abandonar el uso de un formal de la prueba de comparación por completo y en lugar de usar el Peso de la Evidencia (AY). Este enfoque se utiliza comúnmente en las industrias que necesitan marcos de decisión relacionados con los diferentes niveles de riesgo a través de varios predictores. Los ejemplos incluyen la suscripción de seguros, la evaluación del crédito, y los ensayos clínicos.

En la configuración hay una línea de base "de riesgo" de vuelo (le dijo el 10%), pero las probabilidades de vuelo parecen aumentar en gran medida en la presencia de barcos a ciertas distancias. El uso de los AY enfoque puede transmitir el cambio en las probabilidades de vuelo como una función de las naves de la distancia, que es fácil de entender para los laicos público (bueno, al menos más fácil que la comprensión de los p-valores asociados con la estadística de prueba). Tenga en cuenta que esto está estrechamente relacionado con @Scortchi la sugerencia de utilizar la regresión logística, pero ¡AY de ustedes no están tratando de adaptarse a un modelo de regresión.

No es agradable documentación en Statistica del sitio web de la aplicación del método, pero la mejor presentación que he encontrado en un libro de Puntuación de Crédito, la Respuesta de Modelado, y el Seguro de Clasificación: Una Guía Práctica para la Previsión de Comportamiento de los Consumidores. Si usted busca en el término "AY" encontrarás varias secciones a discutir la idea, y la sección 5.1 camina a través de un ejemplo completo de cálculo de AY (es bastante fácil) y la evaluación de los resultados para la toma de decisiones. Por último, tenga en cuenta que hay un stackoverflow post sobre este tema, que no está muy desarrollada, pero hay un enlace a PDF caminar a través de otro ejemplo en el contexto de SAS de codificación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X