7 votos

La incorporación de un tratamiento en un esquema de clasificación

Tengo cerca de 400 piezas de plata de diferentes dimensiones geométricas. Ellos fueron asignados a seis grupos y cada grupo se fue a través de una serie de pruebas de estrés, tales como la flexión, tracción, poner en el fuego por un período de tiempo, etc. Los tratamientos que recibieron los seis grupos no eran los mismos, pero bastante similar. Los tamaños de los seis grupos no eran los mismos. Las piezas se rompió en algún momento y que fue grabado como un éxito o no, el cual fue registrado como un fracaso. El tiempo de cada éxito también fue registrada. El número de éxitos se acerca a los 80.

Mi objetivo es construir un modelo predictivo para determinar si una pieza de plata se rompe basado en sus dimensiones físicas y el trato que pasa a través de.

He tenido un poco de éxito en la construcción de un modelo de uso de las dimensiones físicas, pero la adición de diversos aspectos del tratamiento (por ejemplo. total tiempo empleado en el fuego) no mejorar el rendimiento en todo. Incluso he tratado de construir características (por ejemplo.tensión total en el metal en varias direcciones, de deformación total en el metal, etc.) basado en las dimensiones físicas y el tratamiento, para cada pieza individual, pero incluso estos no agregar cualquier predictivo del rendimiento.

¿Cómo puedo incorporar el tratamiento de la información de una manera que añade a mi poder predictivo? Está claro que el tratamiento es un factor en si una pieza se rompe o no, y que de alguna manera deben mostrar en algún lugar.

N. B. no tenía ningún control sobre el diseño del tratamiento, y la prueba más muestras con otros tratamientos no es una opción para mí.

Me gustaría mucho agradecemos cualquier sugerencia o comentario.
Muchas gracias!

1voto

Boris Tsirelson Puntos 191

Usted puede intentar algunos árbol basado en modelos, tales como randomForest o GBM en R. Ambos modelos son buenos en la recogida de los efectos no lineales y de las interacciones, y ambos también producen variable de importancia las medidas que probablemente será útil en el análisis.

GBM en particular podría ser útil, ya que se adapta cada una de las sucesivas árbol para los residuos del modelo. De esta manera, después de que el modelo captura los efectos de las dimensiones geométricas, se explorará cómo los diversos tratamientos que podrían utilizarse para explicar las "sobras" (o residual) de la varianza. Por otro lado, los bosques aleatorios requieren muy poco de sintonía y son más difíciles de tornillo hasta que el GBM modelos.

Me gustaría asegurarse de que cada tratamiento es el conjunto de sus variables, por ejemplo, el total de tiempo en el fuego, min/media/mediana/max/acumulativa de flexión y tracción de presión, etc. Particularmente en el GBM modelos, más variables están mejor, así que sea cuidadoso!

¿Cómo está la medición de qué tan "buena" que sus modelos son? Estás cruz-la validación de los mismos?

1voto

Wabbit Puntos 41

La forma funcional del modelo va a ser muy importante aquí. De hecho, no podrían ser los efectos de la interacción entre los tratamientos (sensibilidad de ruptura a la flexión podría depender de si se ha puesto a través del fuego antes) y por lo tanto es necesario el uso de una no-lineal de la forma funcional

Así, en lugar de una forma como: $$y=\beta_{fire}x_{fire}+ \beta_{bending}x_{bending} + .. $$ you might want to use a form: $$y=\beta_{bending-fire}x_{bending}x_{fire} + ..+\beta_{fire}x_{fire}+ \beta_{bending}x_{bending} + .. $$

Usted debe comenzar con este simple modelo lineal y, a continuación, pasar a bosques aleatorios, ya que va a crear automáticamente estas interacciones si son importantes

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X