38 votos

¿Cuáles son las ventajas relativas de la Winsorización frente al recorte de datos?

Winsorizar los datos significa sustituir los valores extremos de un conjunto de datos con un determinado valor de percentil de cada extremo, mientras que el Recorte o Truncamiento implica eliminando esos valores extremos.

Siempre veo que ambos métodos se discuten como una opción viable para disminuir el efecto de los valores atípicos al calcular estadísticas como la media o la desviación estándar, pero no he visto por qué uno podría elegir uno sobre el otro.

¿Existen ventajas o desventajas relativas al uso de Winsorizing o Trimming? ¿Existen determinadas situaciones en las que sea preferible un método u otro? ¿Se utiliza uno de ellos con más frecuencia en la práctica o son básicamente intercambiables?

16voto

user42149 Puntos 36

En una pregunta diferente, pero relacionada con el recorte que acabo de tropezar, una respuesta tenía la siguiente información útil sobre los motivos por los que se puede utilizar la winsorización o el recorte:

Si se toma la distribución recortada, se declara explícitamente: No estoy me interesan los valores atípicos/las colas de la distribución. Si cree que que los "valores atípicos" son realmente atípicos (es decir, no pertenecen a la distribución, sino que son de "otro tipo"), entonces haga el recorte. Si se trata de Si cree que pertenecen a la distribución, pero quiere tener una distribución menos distribución menos sesgada, podría pensar en la winsorización.

Tengo curiosidad por saber si hay un enfoque más definitivo, pero la lógica anterior parece razonable.

7voto

Pietro Battiston Puntos 221

Evidentemente, los méritos respectivos dependen de los datos analizados, y aunque dependen de manera no trivial de lo que realmente hace que los datos se distribuyan como lo hacen, podemos al menos considerar dos casos extremos.

  1. Los datos están prácticamente libres de errores, sólo tienen valores atípicos legítimos, pero no quieres que tus resultados se vean gravemente afectados por ellos. Por ejemplo: en una distribución de la riqueza, hay personas terriblemente ricas y terriblemente endeudadas que tendrían un peso excesivo en tus estimaciones. Ahora bien, no necesariamente querrá ignorar estas personas, sólo quieres ignorar que son así que ricos, o endeudados. Al winsorizar, los tratas como "razonablemente ricos" o "razonablemente endeudados". (Obsérvese que en este ejemplo concreto, si sólo se considerara la riqueza positiva, sería preferible tomar un logaritmo)

  2. La distribución subyacente es buena, posiblemente normal, pero hay (pocos pero relevantes) errores en los datos y usted sabe que son esos errores los que causan los valores atípicos. Por ejemplo: en una distribución de informó salarios, es posible que algunos participantes en la encuesta hayan tecleado mal, o informado en la moneda equivocada, su propio salario, lo que ha dado lugar a importes poco razonables. Al recortar, se excluyen los valores atípicos porque realmente no aportan información útil, son sólo ruido (observe que le quedará algo de ruido en la distribución, pero al menos elimina el ruido que distorsionaría desproporcionadamente su análisis).

Entonces, los valores atípicos en los datos reales suelen ser una mezcla de error en los datos y de valores extremos legítimos, cuya interpretación no es evidente.

La recomendación de poner siempre en paralelo los resultados winsorizados/recortados con los resultados completos es siempre válida, pero por dos razones ligeramente diferentes. En el primer caso, para advertir al lector de que no afirma que esté hablando de la distribución real, sino que estudia una distribución modificada que resta importancia a los valores extremos. En el segundo caso, porque usted afirma que está hablando de la distribución real, pero debe advertir al lector de que ha decidido más o menos arbitrariamente lo que en los datos era realmente ruido, no información.

Desde un punto de vista más subjetivo, los resultados recortados (y la diferencia con los resultados completos) suelen ser más fáciles de describir correctamente, y de captar intuitivamente, que los resultados winsorizados.

4voto

kakaz Puntos 31

Una buena pregunta que se plantea muy a menudo en todos los ámbitos. En cualquiera de los dos casos, técnicamente los estás eliminando del conjunto de datos.

Sé que es una práctica común, cuando se trata de encontrar una tendencia gráficamente, utilizar una forma de truncamiento: utilizar todo el conjunto de datos para el trazado, pero luego excluir los valores extremos para la interpretación.

El problema de la "winsorización" es que las partes que se añaden se autocumplen, es decir, se originan en el propio conjunto de datos y, por tanto, sólo lo apoyan. Existen problemas similares si se observa el trabajo de validación cruzada/clasificación en el aprendizaje automático, cuando se decide cómo utilizar los conjuntos de datos de entrenamiento y de prueba.

En cualquier caso, no he encontrado un enfoque estandarizado, siempre se trata de datos específicos. Puedes intentar averiguar qué percentil de tus datos (los valores atípicos) son los causantes de un determinado porcentaje de la volatilidad/desviación estándar, y encontrar un equilibrio entre la reducción de esa volatilidad pero conservando la mayor parte posible de los datos.

-1voto

Elekko Puntos 145

Esta es una buena pregunta, a la que me he enfrentado. En los casos en los que se dispone de un gran conjunto de datos o, más exactamente, de un conjunto de datos muy variable, en el que la minoría de los valores de los datos varía a lo largo de una amplia escala (pero que, sin embargo, es necesario mostrar), y la mayoría del conjunto de datos se encuentra dentro de una banda estrecha, de modo que si los datos se trazan tal cual, se pierden los detalles en los que se encuentra la mayoría de los datos, y la normalización o estandarización no muestra una diferenciación adecuada (al menos visualmente), o bien, se requieren datos en bruto en su lugar, entonces truncar o winsorizar los valores de los datos extremos ayuda a una mejor visualización de los datos.

-2voto

Noah Witherspoon Puntos 35239

Una ventaja de la Winsorización es que el cálculo puede ser más eficiente. Para calcular una verdadera media truncada, hay que ordenar todos los elementos de los datos, y eso suele ser $O(n \log n)$ . Sin embargo, hay formas eficientes de calcular sólo los percentiles del 25% y el 75% utilizando un algoritmo de selección rápida, que suele ser $O(n)$ . Si conoce estos puntos finales, puede volver a realizar un bucle rápido sobre los datos y sustituir los valores inferiores al 25% por el valor del 25% y los superiores al 75% por el 75% y la media. Esto es idéntico a la media de Winsor. Pero hacer un bucle sobre los datos y sólo promediar los datos entre el valor del 25% y el valor del 75% NO es idéntico a la media truncada, porque los valores del 25% o del 75% pueden no ser un valor único. Considere la secuencia de datos $(1,2,3,4,4)$ . La media de Winsor es $(2+2+3+4+4)/5$ . La media truncada correcta debería ser $(2+3+4)/3$ . La media truncada optimizada de "selección rápida" será $(2+3+4+4)/4$ .

1 votos

No es cierto que haya que ordenar todos los datos para calcular una mediana (todo lo cierta que se quiera una mediana), ni tampoco es cierto que sea una $O(n\log n)$ cálculo para encontrarlo. Existen algoritmos para hallar la mediana que son $O(n)$ (en el peor de los casos). [Además, si quick select puede encontrar los percentiles 25 y 75 en O(n) como usted dice, ¿por qué no podría encontrar el percentil 50 en el mismo orden?]

0 votos

Tienes razón. Escribí mal mi mensaje original. A veces los dedos y el cerebro no están sincronizados. Quise decir para calcular correctamente un verdadero media truncada es necesario ordenar todos los elementos de datos. Creo que esto sigue siendo cierto. He actualizado por respuesta.

2 votos

Esto parece implicar que Winsorizing significa Winsorizing 25% en cada cola. Puede Winsorize tanto o tan poco como parezca apropiado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X