4 votos

Identificar si existe una relación entre dos conjuntos de datos

Yo soy de ninguna manera un matemático (soy un desarrollador de software por el comercio), pero estoy tratando de averiguar si existe una relación entre dos conjuntos de datos. He fuentes de referencia el nos proporcionan los clientes, y estoy tratando de averiguar si existe una relación entre el número de llamadas que hacen a la fuente de referencia y el número de clientes que nos dan, y si es así, ¿cuál es el mejor número de llamadas a hacer para producir el mayor número de pacientes. Tengo un año la pena de llamada y los datos del cliente para el uso, pero no estoy seguro de cómo proceder.

Si alguien puede que me señale en la dirección correcta, yo estaría muy agradecido.

Gracias.

2voto

AdamSane Puntos 1825

La forma usual de este tipo de análisis es una especie de regresión, donde $E(Y)$ es modelada como una función de $x$ - así que, estrictamente hablando, me refiero modelado $E(Y|X=x)$

Si "número de clientes" es la variable de interés (respuesta, o a veces de la variable dependiente, $y$), y "número de llamadas" es el predictor (variable independiente, $x$), ambas variables se cuenta.

Hay una serie de enfoques posibles, pero probablemente no quieres ordinario de los modelos de regresión.

En primer lugar, como ya he mencionado, los datos que se cuenta. Son discretos, casi ciertamente sesgada a la derecha, y su varianza va a cambiar con su media.

Además, en este caso probablemente sería de esperar una relación curvilínea (1 llamada de llegar a más clientes que 0 llamadas, 2 de mayo de obtener más todavía, pero 100 llamadas es probablemente drásticamente contraproducente)

Esto me lleva a sugerir, ya sea generalizada de modelos no lineales (GNM), si usted sabe la forma general de la relación funcional en los medios (o al menos tener alguna forma en la mente), y los modelos aditivos generalizados (GAM), si usted no tiene alguna forma funcional.

Te sugiero probar un cuasi-modelo de Poisson.

Aunque el número de llamadas es discreto, ya que estamos tratando de optimizar, usted está probablemente mejor es tratar de ajustar una función suave, que es básicamente como si fuera continua.

De los dos GAMs son probablemente más fácil desde varios puntos de vista.

Si su esperado que cuenta son de tamaño moderado a grande que usted podría conseguir un razonable primera aproximación a la modelización de las raíces cuadradas de que el cliente cuenta, o tal vez los relacionados con Anscombe o Freeman-Tukey transformaciones, y el tratamiento que de forma normal con casi constante de la varianza (aunque le gustaría comprobar que); debe permitir identificar un máximo. Usted todavía estaría buscando en no lineal de mínimos cuadrados (NLS) o los modelos aditivos (tal vez a través de splines o local lineal de suavizado). Si la cuenta son muy pequeños (a menudo menos de tres, por ejemplo), entonces esto puede no funcionar tan bien.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X