Estoy usando vectores de soporte de la regresión para el modelo, algunos bastante sesgada de datos (con alta curtosis). He tratado de modelar los datos directamente, pero me estoy haciendo predicciones erróneas creo que principalmente debido a la distribución de los datos, que es sesgada a la derecha con muy colas de grasa. Estoy bastante seguro de que un par de valores atípicos (que son legítimos puntos de datos) están afectando a la tasa de RVS de formación, y quizás también en la validación cruzada, donde, por el momento estoy optimización de la hyperparameters mediante la minimización de la media del error cuadrado.
He probado a escala mis datos antes de aplicar SVR (por ejemplo, utilizando una función sqrt para reducir los valores atípicos) así como el uso de diferentes hyperparameter de minimización de la función (por ejemplo, error absoluto), lo que parece dar mejores resultados, pero todavía no muy buena. Tengo curiosidad por si alguien se ha enfrentado a problemas similares y cómo se acercó a ella? Cualquier sugerencia y/o métodos alternativos para la mayoría de la recepción.