6 votos

Visualizar la relación entre la variable independiente y la respuesta binaria

He ~14.000 observaciones con una variable independiente, interactions, y una variable dependiente, accuracy. La precisión puede ser 0 (errónea) o 1 (verdadero clasificación). Hay una débil, pero en relación estadísticamente significativa entre los dos como se ve en la figura de abajo (bigotes especificar intervalo de confianza 95%).

enter image description here

Me gustaría tener un liso de la trama a través de los valores posibles de las interacciones en lugar de binning ellos como se ha hecho en la figura anterior. He intentado usar GAM en R para hacer eso, pero termino con la siguiente figura, la cual es claramente incorrecto. También he tratado de regresión logística, que sólo terminó siendo una línea recta, por lo tanto no captura la convergencia en torno a interactions = 100.

enter image description here

¿Cómo puedo obtener una superficie lisa de la trama de la relación entre los dos valores que captura el aumento inicial de la precisión y, a continuación, la convergencia en torno a interactions=100? Sería preferible si un intervalo de confianza puede ser inferida así. Los datos se pueden encontrar en vuelos de código compartido.io. Interacciones por encima de 400 no son interesantes, así que puede ser a la izquierda, si es necesario.

8voto

erik Puntos 3923

No puedo hablar por los modelos (excepto a adivinar que la curva cerca de 100 es demasiado fuerte para ser capturado por una curva logística), pero una visualización idea es continuar con su binning idea al extremo. Considere la posibilidad de un bin para cada posible interactions valor que se extiende una cierta cantidad fija a cada lado. Calcular la media y la IC para cada uno de los recipientes. Pero en lugar de trazar 100s de intervalo de barras, diagrama de los medios como de la línea conectada y la parte superior e inferior CI límites como un área.

Aquí está una parcela hice con sus datos (Gracias por compartir!) y los recipientes de +/- 25. Me alisó la media, ya que era fácil de hacer en mi software, y comunica a la tendencia de la mejor. Yo no suavizar el intervalo de confianza sin límites, porque habría sido más difícil. Presumiblemente, todos los calculada bin estadísticas sería más fácil si yo había usado ponderación, de modo que los valores centrales de cada bin contado más.

enter image description here

Más sobre el movimiento de contenedores: Para cada interaction valor, digamos 57, me miré en el intervalo de +/25, que sería [32 .. 82). Para todos los valores en ese intervalo (3071 para este ejemplo) he calculado la media y la Ets de Error. Cada intervalo puede tener un número diferente, pero el SE está tomando el número de cuenta. Otros métodos como el de Loess miran normalmente ponderado de los intervalos de la misma cuenta. No conozco la estadística méritos de cualquier manera, pero el gráfico de al menos puede ser utilizado para sugerir una función no lineal que mejor que una curva logística.

Colofón: hice el gráfico de forma interactiva en la JMP. La gráfica es una forma relativamente sencilla combinación de un elemento más suave y un área de elemento en JMP Gráfica del Generador. La parte difícil fue en el cálculo de la papelera de estadísticas de uso de la tabla de columnas de fórmula.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X