4 votos

Comparación de conjuntos de datos cercanos

Estoy estudiando 100 juegos de temperatura ( $N_{sample}=500$ ), que depende $4$ variables explicativas como la potencia o la velocidad.

La dependencia es siempre la misma en cada conjunto, pero a veces la media y la varianza son diferentes.

  • Me gustaría agrupar conjuntos similares y estudiar cada grupo por separado: encontrar un modelo de regresión múltiple para cada grupo.
  • Entonces me gustaría clasificar futuros conjuntos Descubriré en uno de esos grupos.

No sé si se refiere a la clusterización o al reconocimiento de patrones o quizá a algo más. Pero no tengo ni idea de cómo hacer classifiy / comparar mis conjuntos, excepto la comparación de la media y la varianza de uno en uno.

¿Alguien tiene consejos o sugerencias?

He aquí un ejemplo de 3 series: Temperature vs power Temperature vs speed

0 votos

Cuando dice "estudiar cada grupo", ¿está pensando en algo como un modelo de regresión múltiple o en otra cosa?

0 votos

Sí, exactamente. Al principio hice una regresión múltiple para estimar la tempetaure. Pero luego me di cuenta de que mi modelo era "un modelo promedio" de todos los conjuntos, por lo que no era lo bastante preciso. Así que quise clasificar mis varios conjuntos de temperatura antes de hacer mi regresión para poder tener un modelo por conjunto.

1 votos

¿Pero no podría simplemente incluir maniquíes para cada conjunto, y maniquí $\times$ interacciones variables y, por tanto, ajustar hiperplanos diferentes a cada conjunto dentro de un único modelo?

1voto

Amadiere Puntos 5606

Intente modelizar los conjuntos, por ejemplo utilizando una distribución multivariante de Gauss, o un Modelo de Mezcla de Gauss.

A continuación, utilice Divergencia de Kullback Leibler medida para compare los modelos y podrá utilizar cualquier algoritmo de agrupación basado en distancias.

0 votos

¿Tengo que truncar el intervalo de las variables explicativas para estudiar mi temperatura en el mismo campo antes de hacer la modelización con mezcla gaussiana? ¿Es más eficiente que la clusterización por k-neighbour?

0 votos

Que yo sepa, no existe la "clusterización k-neighbor". ¿Te refieres a k-means o knn clasificación (supervisado)? En cualquier caso, está comparando manzanas con naranjas: se trata de un método para comparar dos conjuntos de datos (¡!), algo que k-means no puede hacer. A continuación, puede, por ejemplo, ejecutar la agrupación jerárquica para construir un dendrograma de sus conjuntos de datos.

1voto

Alexey Grigorev Puntos 1751

Parece que tiene un problema de agrupación, pero en lugar de observaciones individuales tiene conjuntos de datos completos.

Lo que se podría hacer aquí es calcular para cada conjunto de datos algunas características, por ejemplo, mín., máx., percentiles 25 y 75, media, mediana, std, coeficientes de regresión lineal, etc. Y luego intentar utilizar algunas técnicas de clustering para agruparlos. Es sólo una idea, no estoy seguro de cómo va a funcionar, pero esto es lo que yo haría en este caso.

Una vez que ha aprendido las clases de su conjunto de datos, quiere clasificar nuevos conjuntos de datos, y esto es un problema de clasificación. En este caso, se utiliza el mismo conjunto de características (puede que también otras nuevas) para entrenar el clasificador y, a continuación, utilizarlo para clasificar nuevos conjuntos de datos.

1voto

kjetil b halvorsen Puntos 7012

A partir de la sugerencia de Alexey Grigorev: Se podría construir algún modelo multinivel, en el nivel uno, para cada situación individual ("conjunto de datos") un modelo de regresión lineal, como por ejemplo $$ y_{ij}= \alpha_j + \beta_j x_{ij} + \sigma_j \epsilon_{ij} $$ donde los conjuntos de datos se indexan con $j$ y la observaciónhs dentro de cada conjunto de datos está indexada por $i$ . A continuación, en el segundo nivel, es decir, para los coeficientes $\alpha_j, \beta_j, \sigma_j$ puedes tomar alguna mezcla antes. Eso probablemente necesitará MCMC para la estimación. Un documento que parece hacer algo como esto está aquí: http://www.southampton.ac.uk/~sks/investigación/documentos/sahudeybranco.pdf

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X