Antecedentes: acabo de empezar con el aprendizaje de máquina y estoy pensando en usarlo en la antigua base de datos en el que estoy escribiendo un artículo. El documento se ocupa de la radiación inducida por daño en los pulmones y los datos comprenden mediciones de la tasa de respiración, así como los diferentes tipos histológicos de puntuaciones para cada animal.
Una de las preguntas que me gustaría responder en el papel es si la histología es un predictor de daño pulmonar, y si sí, que en función de la histología es el más importante predictor. El resultado "daño pulmonar" es un valor booleano que indique la frecuencia de la respiración.
Mi idea era dejar a un bosque aleatorio predecir el resultado mediante la evaluación de los datos y el informe de las variables importantes en el papel con la declaración de que "las Puntuaciones de las características histológicas X, Y y Z son los mejores predictores de daño pulmonar". IMO el uso de la máquina de aprendizaje para hacer que me daría una medida cualitativa de las variables de importancia, pero me sobra la tarea de desarrollar un complicado modelo de mí que predice el resultado, ya que este no es el punto principal del documento.
Mis preguntas son:
- Es esto posible y una buena idea?
- Es la variable importancia de una sólida medir, o se ligeros cambios en el cable de datos a un nivel totalmente diferente de importancia variable de clasificación?
- Es la precisión de la predicción importante en este contexto y precisa cómo debe la predicción de ser para mí para estar seguro de que la variable de importancia es la derecha?
Muchas gracias por tus apreciaciones!