8 votos

No paramétrica modelo de mezcla y los grupos

Tengo una pregunta acerca de los clústeres que estoy contemplando la posibilidad de tratar con un test no paramétrico de la mezcla de enfoque (creo). Estoy trabajando en la explicación del comportamiento humano.
Cada fila de mi base de datos contiene:

  1. el ID de alguien
  2. algunos de los parámetros del entorno de X (por ejemplo: la temperatura, el viento, etc.)
  3. una variable binaria Y que representa la reacción de la persona a los parámetros (por ejemplo: obtener enfermo o no enfermo porque el tiempo).

Mi idea (basado en la intuición y no en los datos) es que podemos reunir a la gente en un número finito de grupos, de modo que en un grupo, las personas tienen la misma reacción a la temperatura (algunos son fácilmente enfermo, los demás nunca están enfermos...). En un grupo dado, más formalmente, la ley de Y condicional a los parámetros de X es el mismo.

No tengo idea de la ley de Y condicionada a X. Para los parámetros X, que puedo hacer algunas hipótesis si es necesario.

Me gustaría crear algunos de racimo de las personas "más o menos" la misma reacción al parámetro. Además, me gustaría predecir la reacción de una persona a un determinado valor de los parámetros (incluso si este evento no ha ocurrido nunca en la base de datos).

A mí me parece que podemos tratar el problema como un test no paramétrico de modelo de mezcla. Como no tengo la hipótesis sobre el condicional de la ley de Y, creo que voy a tener que crearlo con los núcleos método, por ejemplo. He encontrado este papel. Además, a mí me parece que, en este caso, cada fila de observación $(X_i, Y_i)$ no es un simple realización de algunos variable aleatoria, sino $X_i$ es una realización de una variable aleatoria, y $Y_i$ es una realización de una variable aleatoria condicional a $X_i$. No sé si se hace una diferencia.

Tengo alrededor de 100000 filas. El vector $X_i$ tiene algunos componentes discretos, y los demás son continuas. Me pregunto:

  • Es mi enfoque correcto?
  • Le aconsejaría a otro punto de vista para este problema?

Yo estaría muy interesado en alguna referencia sobre ella.
No dude en preguntar a mí para reformular el enunciado del problema.

1voto

igowen Puntos 491

Respondiendo a su punto de "le aconsejaría a otro punto de vista para este problema?", Me atrevería a sugerir que, en realidad tiene una mirada en sus datos. Esto puede ayudarle a planificar mejor cuáles son los próximos pasos a tomar. Después de todo, el ojo humano-sistema cerebral es bastante bueno en el reconocimiento de patrones y usted podría ser capaz de decidir mejor sobre el número de clusters, debe optar por una de agrupamiento no supervisado.

En consecuencia, y dado que los datos parece ser de "alto"-dimensional, usted podría tratar de realizar un Análisis de Componentes Principales (PCA) como esto es un análisis rápido, especialmente para el conjunto de datos de 100k de puntos. PCA, sin embargo, no es el único y no necesariamente el enfoque más apropiado para dimensiona la reducción con el objetivo de (2D/3D) la visualización como es paramétrico, método lineal. Sus datos puede comportarse de manera no lineal, aunque. Me puede sugerir la reducción de dimensiones toolbox para Matlab de Laurens van der Maaten que incluyen una gran cantidad de diferentes técnicas. Sin embargo, algunas de las técnicas que en él son inherentemente lento, así que es posible que desee probar ellos en croma de datos. Una muy reciente y potente no paramétricos y no lineal de dimensión técnica de reducción es BH-SNE que debería funcionar también para el conjunto de datos de tamaño, aunque podría tomar alrededor de 30 minutos a 1 hora, dependiendo de su hardware disponible. Puesto que usted está interesado en la detección de clusters, BH-SNE podría ser una buena opción (y es "predecesor" t-SNE) ha mostrado un impresionante rendimiento en estas consideraciones sobre varios conjuntos de datos (s.una. el manuscrito).

Por último, dirigiéndose a su punto en continuo/discreto de datos, esto es algo que yo aún no tienen la experiencia de cómo esto influye en la reducción de dimensiones. En consecuencia, es posible que desee probar cualquiera de la discretización de las variables continuas o ignorar los (pocos?) las variables discretas, si es posible. Alternativamente, usted puede ser que desee tomar la variable binaria (de la persona de reacción) a código de color de los puntos en las bajas dimensiones (2D/3D) de visualización.

P. S. la Realización de una agrupación jerárquica (análisis de ligamiento) y mirando en el dendrograma resultante es otro camino para la creación de una representación de pocas dimensiones de los datos, que pueden ayudar a una mejor estimación de si hay grupos y potencialmente también cómo muchos grupos que hay.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X