28 votos

Diferencia entre datos ausentes y datos dispersos en los algoritmos de aprendizaje automático

¿Cuáles son las principales diferencias entre los datos dispersos y los datos ausentes? ¿Y cómo influye en el aprendizaje automático? Más concretamente, qué efecto tienen los datos dispersos y los datos ausentes en los algoritmos de clasificación y en los algoritmos de regresión (predicción de números). Me refiero a una situación en la que el porcentaje de datos perdidos es significativo y no podemos eliminar las filas que contienen datos perdidos.

29voto

user167666 Puntos 1

Para facilitar la comprensión, lo describiré con un ejemplo. Digamos que usted está recogiendo datos de un dispositivo que tiene 12 sensores. Y has recogido datos durante 10 días.

Los datos que ha recogido son los siguientes: enter image description here

Esto se llama datos dispersos porque la mayoría de las salidas de los sensores son cero. Lo que significa que esos sensores están funcionando correctamente pero la lectura real es cero. Aunque esta matriz tiene datos de alta dimensión (12 ejes) se puede decir que contiene menos información.

Digamos que 2 sensores de su dispositivo están funcionando mal.
Entonces tus datos serán como: enter image description here

En este caso, puede ver que no puede utilizar los datos de Sensor1 y Sensor6. O bien tienes que rellenar los datos manualmente sin que ello afecte a los resultados, o bien tienes que rehacer el experimento.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X