La propuesta tiene numerosos defectos. Este es quizás el más importante.
Supongamos que estás recogiendo datos y ves estos valores:
$$2, 3, 1$$
La media, hasta ahora es $6/3 = 2$ .
Luego viene un atípico:
$$2, 3, 1, 1000$$
Así que lo sustituyes por la media:
$$2, 3, 1, 2$$
El siguiente número es bueno:
$$2, 3, 1, 2, 7$$
Ahora la media es 3. Un momento, la media es ahora 3, pero hemos sustituido 1000 por una media de 2, sólo porque se produjo como cuarto valor. ¿Y si cambiamos el orden de las muestras?
$$2, 3, 1, 7, 1000$$
Ahora la media antes de los 1000 es $(2 + 3 + 1 + 7)/4 = 13/4$ . Así que deberíamos sustituir 1000 por que ¿quieres decir?
El problema es que el dato falso que estamos sustituyendo en lugar de 1000 es dependiente en los otros datos. Eso es un problema epistemológico si se supone que las muestras representan mediciones independientes.
Entonces tienes el problema evidente de que no sólo ocultas los datos que no se ajustan a tus supuestos, sino que los falseas. Cuando se produce algún resultado no deseado, incrementas $n$ y sustituirlo por un valor falso. Esto es incorrecto porque $n$ se supone que es el recuento de muestras. Ahora $n$ representa el número de muestras, más el número de valores falsos añadidos a los datos. Básicamente, destruye la validez de todos los cálculos que implican $n$ incluso los que no utilizan los valores de la falsificación. Su $n$ ¡también es un valor de caramelo!
Básicamente, recortar los resultados que no encajan es una cosa (y puede justificarse si se hace de forma coherente según un algoritmo, en lugar de según los cambios de humor del experimentador).
La falsificación directa de los resultados es objetable por motivos filosóficos, epistemológicos y éticos.
Puede haber algunas circunstancias atenuantes, que tienen que ver con el uso de los resultados. Por ejemplo, digamos que esta sustitución de los valores atípicos por la media actual forma parte del algoritmo de un ordenador integrado, que le permite implementar un sistema de control de bucle cerrado. (Toma muestras de algunas salidas del sistema y luego ajusta las entradas para lograr el control). Todo es en tiempo real, por lo que algo para un periodo de tiempo determinado en lugar de los datos que faltan. Si esta manipulación ayuda a superar los fallos y garantiza un funcionamiento fluido, todo está bien.
He aquí otro ejemplo, de la telefonía digital: PLC (ocultación de pérdida de paquetes). Los paquetes se pierden, pero la comunicación es en tiempo real. El PLC sintetiza trozos de voz falsos basándose en la información de tono reciente de los paquetes recibidos correctamente. Así, si un hablante estaba diciendo la vocal "aaa" y luego se perdió un paquete, PLC puede rellenar el paquete perdido extrapolando el "aaa" para la duración de la trama (digamos 5 o 10 milisegundos o lo que sea). El "aaa" es tal que se asemeja a la voz del hablante. Esto es análogo al uso de una "media" para sustituir los valores considerados malos. Es algo bueno; es mejor que el sonido se interrumpa y ayude a la inteligibilidad.
Si el amaño de datos forma parte de un programa de mentiras a la gente para encubrir un trabajo fallido, eso es otra cosa.
Por tanto, no podemos pensar en ello independientemente de la aplicación: ¿cómo se utilizan las estadísticas? ¿Las sustituciones llevarán a conclusiones no válidas? ¿Hay implicaciones éticas?