¿Cuáles son las principales diferencias entre los datos dispersos y los datos ausentes? ¿Y cómo influye en el aprendizaje automático? Más concretamente, qué efecto tienen los datos dispersos y los datos ausentes en los algoritmos de clasificación y en los algoritmos de regresión (predicción de números). Me refiero a una situación en la que el porcentaje de datos perdidos es significativo y no podemos eliminar las filas que contienen datos perdidos.
Respuesta
¿Demasiados anuncios?Para facilitar la comprensión, lo describiré con un ejemplo. Digamos que usted está recogiendo datos de un dispositivo que tiene 12 sensores. Y has recogido datos durante 10 días.
Los datos que ha recogido son los siguientes:
Esto se llama datos dispersos porque la mayoría de las salidas de los sensores son cero. Lo que significa que esos sensores están funcionando correctamente pero la lectura real es cero. Aunque esta matriz tiene datos de alta dimensión (12 ejes) se puede decir que contiene menos información.
Digamos que 2 sensores de su dispositivo están funcionando mal.
Entonces tus datos serán como:
En este caso, puede ver que no puede utilizar los datos de Sensor1 y Sensor6. O bien tienes que rellenar los datos manualmente sin que ello afecte a los resultados, o bien tienes que rehacer el experimento.