Processing math: 100%

5 votos

Encuesta de los usuarios con un intervalo de credibilidad bayesiana

Yo trabajo en un par de sitios web de las bibliotecas y queremos saber quiénes son los usuarios para que podamos tomar decisiones acerca de cómo el diseño del sitio y centrar los esfuerzos.

Estas son las clases de usuarios que están interesados en:

"Por favor, seleccione la respuesta que mejor describe a sí mismo:"

  • k12-maestro-bibliotecario
  • k12-estudiante
  • de estudiantes universitarios
  • la graduación de la estudiante
  • el docente investigador
  • genealogista-investigador
  • archivero/bibliotecario
  • otros [usuario puede especificar o dejar en blanco]

Queremos saber el porcentaje de nuestros usuarios que pertenecen a cada categoría, y queremos tener algún sentido de cómo la precisión de nuestras números. También queremos saber si y cómo estas proporciones cambian durante diferentes épocas del año.

Mi primera pregunta es "¿es este un problema donde puedo utilizar Bayesiano stats?"

Nos quedamos un pop-up de la encuesta que fue en cada página de nuestros sitios web, por dos semanas, hace aproximadamente 6 meses. Se utiliza una cookie de flash para marcar cuando se realizó la encuesta para que los usuarios sólo se consigue de una vez. Esto fue iniciado sesión en google analytics, para poder ver el % de uso de los sitios de cada tipo de usuario. Sin embargo, nuestros sitios web son muy utilizados en las computadoras de la biblioteca laboratorios donde están configurados con flash en un sistema de ficheros de sólo lectura que terminó con la encuesta se muestran en cada página, ya que no se podía escribir realmente a los objetos compartidos de flash.

Puedo utilizar los datos de la "escopeta" pop-up de la encuesta como mi priores; y, a continuación, de forma prospectiva ejecutar el pop-up de la encuesta para uno de cada 1.000 visitantes únicos para cada sitio? Me gustaría tener de 6 a 8 nuevos resultados de la encuesta de venir en un día en el que me gustaría utilizar para actualizar continuamente un modelo Bayesiano de quiénes son nuestros usuarios.

La cosa es que no he tenido un stats de la clase de 20 años y luego fue clásica estadísticas. He estado buscando en google todo acerca de discretas variables aleatorias y la lectura http://www.greenteapress.com/thinkbayes/ pero realmente no tengo idea de qué estoy hablando. Estoy en la pista de la derecha con esta idea (si es así, alguna sugerencia de cómo proceder? Yo trabajo en una biblioteca así que puede buscar cualquier referencia que pueda me apunto a) o lo hace sonar como una tontería/galimatías?


actualización:

Estos son los datos de la encuesta que publicamos en diciembre de 2011

Sitio Web:
 65 k-12 profesor o bibliotecario
 71 k-12 estudiantes
532 universitario o estudiante de posgrado (queremos dividir este en adelante)
307 de la facultad o el investigador académico
369 archivero o bibliotecario
234 genealogista o de familia investigador
584 otros

Sitio Web De B:
133 k-12 profesor o bibliotecario
280 k-12 estudiantes
445 universitario o estudiante de posgrado
 82 de la facultad o el investigador académico
 55 archivero o bibliotecario
 68 genealogista o de familia investigador
220 otros

6voto

farzad Puntos 4180

Definitivamente, usted puede usar un análisis Bayesiano para resolver su problema. Ha k categorías, el número observado de respuestas para cada categoría se (x1,,xk), y su probabilidad es proporcional a θx11θxkk, donde θi es la proporción de usuarios potenciales de la biblioteca que pertenecen a la categoría de i. Usted no sabe el θi's (que son los parámetros), pero si crees que a priori se distribuyen de manera uniforme en el k-simplex, entonces, dado el xi's, el θi's se distribuyen a posterioricomo (θ1,,θk)(x1,,xk)Dirichlet(x1+1,,xk+1). A partir de esta distribución posterior, usted puede calcular casi cualquier cosa que te interese, como los intervalos de credibilidad para el θi's, la probabilidad de que usted tiene más estudiantes universitarios de los estudiantes de posgrado, etc.

rdirichlet <- function(a) {
    y <- rgamma(length(a), a, 1)
    return(y / sum(y))
}

x <- c(65, 71, 532, 307, 369, 234, 584)

SIMS <- 10000

t <- matrix(nrow = SIMS, ncol = length(x), data = 0)

for (i in 1:SIMS) t[i,] = rdirichlet(x + 1)

sum(t[,3]) / SIMS # estimate of "college or grad"

quantile(t[,3], probs = c(0.025, 0.975)) # credible interval for "college or grad"

# posterior probabilities
sum(t[,3] > t[,7]) / SIMS # more "college or grad" than "other"
sum(t[,1] > t[,2]) / SIMS # more "k-12 teacher or librarian" than "k-12 student"

4voto

Tracker1 Puntos 279

No tengo suficiente rep comentarios sobre el Zen de la respuesta... y no me registra en cuando le hice esta pregunta, así que no soy dueño de ella y no puede aceptarlo o comentario sobre el mismo.

En primer lugar, gracias por tu respuesta. Creo que todavía tengo fundamental de la ignorancia acerca de los priores y probabilidad, no lo ha hecho clic para mí todavía. ¿Cuál es la diferencia entre los "reincidentes" y "probabilidad"?

y su probabilidad es proporcional a θx11θxkk, donde θi es la proporción de usuarios de la biblioteca que pertenecen a la categoría de i. Usted no sabe el θi's (que son los parámetros), pero si crees que a priori se distribuyen de manera uniforme en el k-simplex,

Por qué asumir que se distribuyen de manera uniforme, y no, digamos, en proporción a su fracción de la población de estados unidos? https://docs.google.com/spreadsheet/ccc?key=0AmlczcEUr8GxdEl4NnhIdHYyTWFjSmdDSGc2VGJUTlE#gid=0

Es la principal ventaja para el Dirichlet su propiedad de ser un conjugado antes?

Yo era una especie de pensamiento que tal vez los datos del censo sería mi probabilidad y los resultados de lo que yo llamo la "escopeta" encuesta sería mi priores?

(θ1,,θk)(x1,,xk)Dirichlet(x1+1,,xk+1).

Es esta lectura de "la teta parámetros dados los datos observados" algo "distribución Dirichlet"? No estoy seguro de cómo leer la ∼

Creo que el x1+1 bits fue lo que me equivoqué. Cuando yo estaba usando mi censo basado en la probabilidad de la función, se me fue la introducción de (0, 0, 0, 1, 0, 0 ...) no (1, 1, 1, 2, 1, 1 ...)

Gracias de nuevo por tu ayuda. Me alegro de saber que esto parece como un enfoque válido. He instalado R ayer y me iba a retirar del Demonio de Laplace de CRAN, es que un buen paquete para esto, o debo estar mirando algo más?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X