Processing math: 100%

34 votos

Sustitución de los valores atípicos por la media

Esta pregunta me la hizo un amigo que no tiene conocimientos de Internet. No tengo conocimientos de estadística y he estado buscando esta pregunta en Internet.

La pregunta es: ¿es posible sustituir los valores atípicos por el valor medio? si es posible, ¿hay alguna referencia de libro/revista que respalde esta afirmación?

3voto

Amadiere Puntos 5606

Conozco dos enfoques similares relacionados con la estadística.

  • Medias recortadas: cuando se calcula la media, se eliminan las observaciones más pequeñas y más grandes de los datos (por ejemplo, las más altas y las más bajas). 1 cada uno; ¡hay que hacerlo simétricamente!)
  • Winsorización: similar a la media recortada, sólo se modifican las observaciones extremas. Sin embargo, en lugar de eliminarlas, las sustituye por la observación mayor/menor no extrema. Esto suele funcionar ligeramente mejor que el recorte.

Para ver ejemplos más detallados, consulte la Wikipedia:

https://en.wikipedia.org/wiki/Trimmed_estimator

https://en.wikipedia.org/wiki/Winsorising

Tenga en cuenta que esto funciona bien para algunas estadísticas, como cuando se calcula la media. La media recortada / winsorizada es a menudo una mejor estimación de la verdadera media que la media aritmética. En otros casos, puede arruinar sus estadísticas. Por ejemplo, al calcular la varianza, el recorte siempre subestimará la verdadera varianza. La winsorización, asumiendo que efectivamente algunas de las observaciones extremas son defectuosas, funcionará entonces un poco mejor (probablemente seguirá subestimando, pero no tanto).

No veo cómo sustituir los valores extremos por la media podría encajar aquí.

Sin embargo, hay otra práctica que está relacionada: imputación de valores perdidos . Asumiendo que su valor atípico es un dato defectuoso, sin valor, por lo que lo elimina. Al realizar la imputación, un valor sustitutivo típico sería la media o la moda:

https://en.wikipedia.org/wiki/Imputation_%28statistics%29

2voto

Nick Russo Puntos 51

El enfoque tradicional para tratar los valores atípicos consiste en eliminarlos de forma que el modelo se entrene sólo con datos "buenos".

Tenga en cuenta que el valor medio se ve afectado por la presencia de esos valores atípicos. Si sustituye los valores atípicos por la media calculado después de eliminar los valores atípicos de su conjunto de datos No obstante, no habrá ninguna diferencia, ya que la línea de regresión (de la regresión lineal simple) pasará por la media de los datos de entrenamiento (aunque esto reducirá la varianza de las estimaciones, lo que probablemente sea lo contrario de lo que quieres, ya que sabes que hay valores atípicos).

El efecto que su enfoque tendrá en el modelo depende de la influencia (apalancamiento) del valor atípico. Yo recomendaría no adoptar el enfoque que sugieres en lugar de eliminar el punto por completo.

0voto

Sujit Jena Puntos 1

Sí, los valores atípicos pueden ser sustituidos de muchas formas, por ejemplo, tomemos un conjunto de datos del tamaño de las alturas humanas, digamos que tenemos algunos valores atípicos como 500 cm y 400 cm entonces, podemos simplemente reemplazar esos puntos de datos que aparecen en el conjunto de datos debido a algún error que fue causado durante la grabación de los datos. Así que las opciones que puedes probar son 1. reemplazar con la Mediana de todo el color de los datos (no la media, ya que es propensa a los valores atípicos). 2. reemplazar con el punto de datos que más ocurra en la Columna. 3. Si se trata de valores categóricos, se puede intentar la codificación de la respuesta (en la que se registra la probabilidad de que la palabra o los valores se produzcan por el número total de palabras).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X