Evidentemente, los méritos respectivos dependen de los datos analizados, y aunque dependen de manera no trivial de lo que realmente hace que los datos se distribuyan como lo hacen, podemos al menos considerar dos casos extremos.
-
Los datos están prácticamente libres de errores, sólo tienen valores atípicos legítimos, pero no quieres que tus resultados se vean gravemente afectados por ellos. Por ejemplo: en una distribución de la riqueza, hay personas terriblemente ricas y terriblemente endeudadas que tendrían un peso excesivo en tus estimaciones. Ahora bien, no necesariamente querrá ignorar estas personas, sólo quieres ignorar que son así que ricos, o endeudados. Al winsorizar, los tratas como "razonablemente ricos" o "razonablemente endeudados". (Obsérvese que en este ejemplo concreto, si sólo se considerara la riqueza positiva, sería preferible tomar un logaritmo)
-
La distribución subyacente es buena, posiblemente normal, pero hay (pocos pero relevantes) errores en los datos y usted sabe que son esos errores los que causan los valores atípicos. Por ejemplo: en una distribución de informó salarios, es posible que algunos participantes en la encuesta hayan tecleado mal, o informado en la moneda equivocada, su propio salario, lo que ha dado lugar a importes poco razonables. Al recortar, se excluyen los valores atípicos porque realmente no aportan información útil, son sólo ruido (observe que le quedará algo de ruido en la distribución, pero al menos elimina el ruido que distorsionaría desproporcionadamente su análisis).
Entonces, los valores atípicos en los datos reales suelen ser una mezcla de error en los datos y de valores extremos legítimos, cuya interpretación no es evidente.
La recomendación de poner siempre en paralelo los resultados winsorizados/recortados con los resultados completos es siempre válida, pero por dos razones ligeramente diferentes. En el primer caso, para advertir al lector de que no afirma que esté hablando de la distribución real, sino que estudia una distribución modificada que resta importancia a los valores extremos. En el segundo caso, porque usted afirma que está hablando de la distribución real, pero debe advertir al lector de que ha decidido más o menos arbitrariamente lo que en los datos era realmente ruido, no información.
Desde un punto de vista más subjetivo, los resultados recortados (y la diferencia con los resultados completos) suelen ser más fáciles de describir correctamente, y de captar intuitivamente, que los resultados winsorizados.