6 votos

Minimizar el número de preguntas del cuestionario de respuestas binarias pasadas

Tenemos datos de 600.000 usuarios que describe si se observan de 80+ binario características. Es decir, nuestros datos son un 600.000 x 80 de la matriz binaria con perfil de usuario.

Sabemos que a partir de la inspección que algunas funciones están positivamente y negativamente correlacionados. Algunos positivo/negativo características de excluir a los demás. La mayoría de los usuarios tienen menos de 10 características positivas en sus perfiles.

Queremos recuperar el perfil de los nuevos usuarios pidiéndoles el conjunto mínimo de preguntas a partir de los 80+ potencial dada esta los datos anteriores.

La idea es dar un pequeño conjunto de preguntas (5-10) a los nuevos usuarios. Los que deben proporcionar la máxima cantidad de información con el fin de "cortar" el número de posibles preguntas siguientes. Después de que un usuario ha respondido a la primera serie de preguntas, nos gustaría pedir a un lado establece que, de nuevo, "cortar" el número de preguntas siguientes más rápido. Parece razonable tener en cuenta las respuestas positivas y negativas.

Podría usted por favor me dan algunos consejos de cómo implementar este modelo? Nos gustaría tener:

  • Una manera de medir la distribución del número esperado de preguntas para cada usuario.
  • Alguna manera de ajustar el "número de preguntas iniciales" siempre.
  • El modelo debe ser preprocesadas con el fin de ser capaz de reaccionar rápido a la entrada del usuario.
  • Si es posible, visualizar la relación entre las preguntas.
  • Si es posible, ser capaz de controlar el número esperado de preguntas (supongo que por descarte correlaciones bajas).
  • Si es posible, actualizar el modelo incremental el uso de los encuestados nuevos (no crítico)

Planeamos prototipo en Python y, a continuación, aplicar en .Net, pero cualquier otra sugerencia/código será bienvenida.

5voto

Nick Stauner Puntos 8220

Se parece mucho a un adaptativos informatizados de pruebas (CAT) de la aplicación. Esta es solo una pequeña sugerencia, no un intento de una solución integral, por lo que espero que otros se mantienen las respuestas que vienen.

Estoy asumiendo que usted está esperando para predecir la respuesta a la pregunta planteada de una manera óptima pequeño subconjunto de preguntas a tal grado de precisión que efectivamente hay ninguna necesidad de pedir realmente las preguntas que las respuestas pueden predecirse a partir de las respuestas anteriores. Específicamente, estoy asumiendo un par de cosas acerca de su significado original:

  • "Algunos positivo/negativo características de excluir a los demás." = Algunas de las características puede ser utilizado para predecir la ausencia de los demás de forma muy precisa, tal vez incluso sin ningún tipo de error.

  • "En orden a "cortar" el número de posibles preguntas siguientes" = El propósito es reducir el número de preguntas de seguimiento que en su mayoría proporcionan información que es redundante con la información recogida por ya-preguntas frecuentes.

Si he malinterpretado estas piezas, mi sugerencia puede ser engañosa; de lo contrario, creo que estoy a menos que apunta en la derecha de la dirección general. No sé mucho más sobre el GATO de este propósito general que sirve, así que espero que te gustaría estar mejor preparados que yo para estudiar de manera eficiente.

Otra idea se refiere a un enfoque ligeramente diferente, en la que se iba a tratar de reducir el número total de preguntas que preguntar a todos los futuros usuarios. Usted puede comenzar a hacer esto mediante el análisis de la latente estructura factorial de los datos existentes utilizando algo como multidimensional de la teoría de respuesta al ítem (MIRT; véase, por ejemplo, Maydeu-Olivares, 2001; Osteen, 2010). Si usted encuentra que una gran cantidad de artículos que proporcionan información acerca de los mismos factores subyacentes, esto podría ayudar a entender su total de la piscina de la información en términos de una lista más corta de factores más amplios. Si usted encuentra que la lista (de los factores latentes en su conjunto de preguntas) contiene suficiente de lo que realmente quiere saber, usted puede elegir a eliminar algunas de las preguntas que no predecir los factores latentes muy bien y no proporcionan otra información importante. Usted podría incluso considerar la posibilidad de retener sólo uno o dos de los elementos que mejor predicen cada factor latente, dependiendo de lo que usted desea hacer con estos datos. Este tangencial de la idea de que la mina se supone que algunas de sus preguntas son desechables. También, desechar algunas de las preguntas que probablemente sólo simplificar el problema de alguna manera, en realidad no resolverlo.

También, pienso de GATO y MIRT sería asumir que los datos binarios son los indicadores de (un) continua subyacente dimensión(s). Si ese no es el caso, tanto las ideas puede ser engañosa, y usted podría querer decir un poco más acerca de la naturaleza de los datos para ayudar a informar a los futuros respuestas (o ediciones mías).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X