3 votos

¿Anómalos para la clasificación; datos desequilibrados para la regresión?

Cuando oigo hablar de los términos "valores atípicos" y "datos desequilibrados" suele ser en el contexto de la regresión y la clasificación, respectivamente.

Por "valores atípicos" se entiende la respuesta continua que cae sustancialmente fuera del resto de los datos y por "datos desequilibrados" se entiende que la respuesta discreta es principalmente de una clase.

¿Existen los valores atípicos en la clasificación (no me refiero a la palanca, sino estrictamente a los valores atípicos en la respuesta)? ¿Existen los datos desequilibrados en la regresión?

1voto

Dipstick Puntos 4869

¿Existen los valores atípicos en la clasificación (no hablo de de apalancamiento aquí, estoy hablando estrictamente de valores atípicos en la

Se pueden tener valores atípicos en las características, pero se está preguntando por la respuesta. En la clasificación, la respuesta es una matriz multidimensional de ceros y unos (tiene una sola dimensión para la clasificación binaria y múltiples para la clasificación multiclase y multisalida). En este caso, no puede haber valores atípicos ("valores extraños"), ya que los valores sólo pueden ser ceros y unos. Si no lo son, no se trata de un valor atípico, sino de un problema con los datos (codificación no válida, error en el código de preprocesamiento).

¿Existen los datos desequilibrados en la regresión?

Sí, más o menos. Digamos que su variable es la edad humana. Has recogido la muestra acercándote a personas al azar en la calle y dándoles una encuesta para que la rellenen. Por casualidad, el lugar en el que has recogido las encuestas está cerca de un centro de enseñanza secundaria, por lo que, aunque otros grupos de edad están bastante bien representados, los adolescentes están sobrerrepresentados en tu muestra. Este tipo de desequilibrio puede ser mucho más sutil y difícil de diagnosticar que el de la clasificación.

Además, hay que tener en cuenta que puede haber valores atípicos multivariantes, en los que cada una de las variables por separado parece estar bien, pero su combinación es una anomalía (por ejemplo, un niño de preescolar muy alto). Lo mismo ocurre con el desequilibrio de los datos (por ejemplo, los hombres negros de más de 70 años están infrarrepresentados). En tal caso, se aplica tanto a la regresión como a la clasificación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X