3 votos

Eliminación de valores atípicos antes de la regresión de árbol de decisión potenciada

Estoy utilizando Regresión de árbol de decisión potenciada para predecir un valor. Obtengo algunos valores en los que el residuo (valor verdadero - valor estimado) en mis conjuntos de entrenamiento y prueba es grande. Tengo razones para creer que se trata de errores de registro. Los pocos que puedo detectar a simple vista me hacen pensar que hay otros que no puedo distinguir tan fácilmente. Un árbol de decisión reforzado es muy sensible a los valores atípicos, por lo que me gustaría eliminarlos de mi conjunto de entrenamiento antes de entrenarlo.

Mi primera idea fue utilizar un Forrest al azar porque es un método similar que es menos sensible a los valores atípicos y también estimará la desviación estándar además de la variable dependiente. Así podría eliminar todas las muestras de entrenamiento con un residuo superior a unas pocas desviaciones estándar. Sin embargo, este método no funcionó. Parece que la desviación estándar se calcula de tal manera que será mayor cuando se está estimando para un valor atípico. Esto tiene sentido ya que no estoy utilizando un conjunto de entrenamiento y prueba. Si hago esto, el método funciona mejor pero entonces reduzco mucho mis datos para el eventual algoritmo de predicción. Estaba considerando utilizar Bosques de regresión cuantil y luego cortar los percentiles 5 y 95, pero las pruebas preliminares parecen demasiado lentas.

¿Existe algún método estándar para ello?

EDITAR

He avanzado en mi idea original. Es decir, ejecutar un bosque aleatorio en el conjunto de entrenamiento para ver qué valores son difíciles de estimar y, a continuación, eliminarlos antes de entrenar con el árbol de decisión potenciado. Para ilustrar mejor la cuestión he añadido una serie de gráficos a continuación. Todos ellos son gráficos de dispersión de las distintas métricas:

  • El verdadero valor: El valor que quiero estimar
  • El valor estimado: La salida del Forrest aleatorio realizada promediando las predicciones de todos los árboles de regresión individuales.
  • El residuo: valor real - valor estimado
  • El STD: Una estimación de la incertidumbre de la predicción hecha como la desviación estándar de las predicciones de todos los árboles de regresión individuales.

Los errores de registro que pueden apreciarse a simple vista tienen valores en torno a 90.000 y 100.000. Como ya se ha dicho, la presencia de estos errores de registro me hace sospechar que hay otros que no son tan fáciles de detectar.

Estoy considerando recortes en dos cosas posibles para reducir los errores de medición. La primera es la ETS sola, donde recortaría cualquier cosa por encima de 20000. El segundo es el Residuo estudiado (Res/STD). Lo muestro en todos los gráficos agrupados por valor en colores. Un corte en torno a 3 parece razonable.

El problema con este método es que los valores de las métricas sobre las que quiero cortar dependen en gran medida del ajuste de los hiperparámetros. Probablemente el más crucial es el "Número mínimo de muestras por nodo hoja". Lo he fijado en 10, que es un valor bastante alto. La idea es que los registros con errores de registro se agrupen fácilmente con otros valores basados en las características pero que tengan un valor muy diferente. Forzar este grupo para que contenga al menos 10 valores debería dejar claro el valor atípico.

enter image description here

3voto

Ankaluth Fadia Puntos 1

Función de pérdida

Los bosques aleatorios (RF) y los árboles de decisión potenciados (BDT) son técnicas que optimizan una función de pérdida determinada. En sklearn la selección de la función de pérdida se realiza configurando el parámetro "criterio". Esto también debería ser posible con las herramientas estadísticas disponibles en Azure.

Hay funciones de pérdida que son más o menos sensibles a los valores atípicos, por ejemplo el MSE es más sensible a los valores atípicos que el Error Absoluto Medio (equivalente a estimar el percentil 50 condicional, también conocido como la mediana condicional). Puede ver una amplia gama de funciones de pérdida aquí . Considero que la elección de la función de pérdida es una forma cómoda de asignar más o menos peso a los "valores atípicos".

Edición 1:

He estado trabajando en acelerar la regresión de cuartiles

La estimación de los cuantiles también puede realizarse modificando la función de pérdida de modo que, en lugar de estimar $E[Y>X]$ o la mediana (MAE) (2 cuartiles), generará una estimación condicional para un cuantil arbitrario. Esto se hace minimizando una suma de residuos absolutos ponderados asimétricamente ( véase ). Aunque dice que no cambiaría a una función de pérdida menos sensible a los errores de medición, es posible que ya lo haya hecho.

Valores atípicos frente a puntos de gran influencia

Es importante distinguir el concepto de valor atípico a partir del concepto de puntos de influencia y de alta influencia

  • Un valor atípico es un punto de datos cuya respuesta y no sigue la tendencia general del resto de los datos.
  • Un punto de datos tiene un alto apalancamiento si tiene valores "extremos" del predictor x.
  • Un punto de datos es influyente si influye indebidamente en cualquier parte de un análisis de regresión, como las respuestas predichas, los o los resultados de la prueba de hipótesis. Los valores atípicos y los tienen el potencial de ser influyentes ( fuente )

Como usted menciona:

Entonces podría eliminar todas las muestras de entrenamiento con un residuo mayor que algunas desviaciones estándar. Este método no funcionó.

Pensé que sería útil indicarle estrategias y técnicas para tratar los valores atípicos, el apalancamiento y, en última instancia, los puntos influyentes. La bibliografía se centra en las regresiones lineales clásicas (MCO), pero muchas de las ideas que aportan estas técnicas también proporcionan señales de "alerta" cuando se utilizan RF y BDT.

Eche un vistazo aquí Herramientas

  • Distancia de Cook - para medir la influencia
  • Residuos estudiados - para medir la extroversión
  • Apalancamiento - para medir la "inusualidad" de las x

Edición 1

No creo que la distancia de Cook ni Leverage árboles de regresión

Yo diría que la distancia de Cook y el Apalancamiento se generalizan a un conjunto de árboles si asumimos que el conjunto debe aproximarse a una función cuyo comportamiento también podría ser representado con un nivel deseado de precisión por un Modelo Lineal Generalizado. No estoy seguro de que éste sea el caso.

Lo que sí probé fue algo parecido al residuo studentizado. El bosque forest da una desviación estándar, así que en principio puedo hacerlo. En práctica no funcionó bien.

¿A qué desviación típica se refiere? Seguro que tienes residuos; y por cierto, hay una conexión entre el apalancamiento y los residuos estudiados ( wiki )

Embolsado

El PO menciona tanto los bosques aleatorios (RF) como los árboles de decisión potenciados (BDT). Me gustaría subrayar que los RF y los BDT no son lo mismo .

El embolsado, en presencia de puntos muy influyentes, es una opción:

Si un "predictor inestable" se define como un predictor para el que existen hay puntos altamente influyentes, entonces coincide con el de Breiman: el ensacado estabiliza los estimadores y reduce la varianza ( fuente )

1voto

rinspy Puntos 106

Si cree que se trata de errores de registro, ¿por qué no eliminarlos (o corregirlos) ahora que los ha identificado y volver a entrenar el árbol de decisión potenciado?

Si su suposición sobre los errores de registro es correcta, esto debería mejorar el rendimiento de su modelo fuera de la muestra. Si sus suposiciones son incorrectas, obtendrá estimaciones de rendimiento infladas en su conjunto de pruebas.

Dado que aún está perfeccionando su modelo, todavía no debería utilizar su conjunto de pruebas. En su lugar, utilice la validación cruzada. Utilice el conjunto de prueba sólo al final para estimar el rendimiento de su modelo fuera de la muestra. No obstante, puede revisar el conjunto de pruebas y corregir o eliminar los errores de registro que detecte, pero no utilice el modelo para ello.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X