¿Existen los valores atípicos en la clasificación (no hablo de de apalancamiento aquí, estoy hablando estrictamente de valores atípicos en la
Se pueden tener valores atípicos en las características, pero se está preguntando por la respuesta. En la clasificación, la respuesta es una matriz multidimensional de ceros y unos (tiene una sola dimensión para la clasificación binaria y múltiples para la clasificación multiclase y multisalida). En este caso, no puede haber valores atípicos ("valores extraños"), ya que los valores sólo pueden ser ceros y unos. Si no lo son, no se trata de un valor atípico, sino de un problema con los datos (codificación no válida, error en el código de preprocesamiento).
¿Existen los datos desequilibrados en la regresión?
Sí, más o menos. Digamos que su variable es la edad humana. Has recogido la muestra acercándote a personas al azar en la calle y dándoles una encuesta para que la rellenen. Por casualidad, el lugar en el que has recogido las encuestas está cerca de un centro de enseñanza secundaria, por lo que, aunque otros grupos de edad están bastante bien representados, los adolescentes están sobrerrepresentados en tu muestra. Este tipo de desequilibrio puede ser mucho más sutil y difícil de diagnosticar que el de la clasificación.
Además, hay que tener en cuenta que puede haber valores atípicos multivariantes, en los que cada una de las variables por separado parece estar bien, pero su combinación es una anomalía (por ejemplo, un niño de preescolar muy alto). Lo mismo ocurre con el desequilibrio de los datos (por ejemplo, los hombres negros de más de 70 años están infrarrepresentados). En tal caso, se aplica tanto a la regresión como a la clasificación.