Tengo una pregunta acerca de los clústeres que estoy contemplando la posibilidad de tratar con un test no paramétrico de la mezcla de enfoque (creo).
Estoy trabajando en la explicación del comportamiento humano.
Cada fila de mi base de datos contiene:
- el ID de alguien
- algunos de los parámetros del entorno de X (por ejemplo: la temperatura, el viento, etc.)
- una variable binaria Y que representa la reacción de la persona a los parámetros (por ejemplo: obtener enfermo o no enfermo porque el tiempo).
Mi idea (basado en la intuición y no en los datos) es que podemos reunir a la gente en un número finito de grupos, de modo que en un grupo, las personas tienen la misma reacción a la temperatura (algunos son fácilmente enfermo, los demás nunca están enfermos...). En un grupo dado, más formalmente, la ley de Y condicional a los parámetros de X es el mismo.
No tengo idea de la ley de Y condicionada a X. Para los parámetros X, que puedo hacer algunas hipótesis si es necesario.
Me gustaría crear algunos de racimo de las personas "más o menos" la misma reacción al parámetro. Además, me gustaría predecir la reacción de una persona a un determinado valor de los parámetros (incluso si este evento no ha ocurrido nunca en la base de datos).
A mí me parece que podemos tratar el problema como un test no paramétrico de modelo de mezcla. Como no tengo la hipótesis sobre el condicional de la ley de Y, creo que voy a tener que crearlo con los núcleos método, por ejemplo. He encontrado este papel. Además, a mí me parece que, en este caso, cada fila de observación $(X_i, Y_i)$ no es un simple realización de algunos variable aleatoria, sino $X_i$ es una realización de una variable aleatoria, y $Y_i$ es una realización de una variable aleatoria condicional a $X_i$. No sé si se hace una diferencia.
Tengo alrededor de 100000 filas. El vector $X_i$ tiene algunos componentes discretos, y los demás son continuas. Me pregunto:
- Es mi enfoque correcto?
- Le aconsejaría a otro punto de vista para este problema?
Yo estaría muy interesado en alguna referencia sobre ella.
No dude en preguntar a mí para reformular el enunciado del problema.