Sustitución de los valores atípicos por la media

Question

Sustitución de los valores atípicos por la media

Preguntado el 29 de Noviembre, 2013: Cuando se hizo la pregunta
36028 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Esta pregunta me la hizo un amigo que no tiene conocimientos de Internet. No tengo conocimientos de estadística y he estado buscando esta pregunta en Internet.

La pregunta es: ¿es posible sustituir los valores atípicos por el valor medio? si es posible, ¿hay alguna referencia de libro/revista que respalde esta afirmación?

Preguntado el 29 de Noviembre, 2013 por user35394

Answer 1

3 Respuestas

Answer 2

3voto

Amadiere Puntos 5606

Conozco dos enfoques similares relacionados con la estadística.

Medias recortadas: cuando se calcula la media, se eliminan las observaciones más pequeñas y más grandes de los datos (por ejemplo, las más altas y las más bajas). $1%$ cada uno; ¡hay que hacerlo simétricamente!)
Winsorización: similar a la media recortada, sólo se modifican las observaciones extremas. Sin embargo, en lugar de eliminarlas, las sustituye por la observación mayor/menor no extrema. Esto suele funcionar ligeramente mejor que el recorte.

Para ver ejemplos más detallados, consulte la Wikipedia:

https://en.wikipedia.org/wiki/Trimmed_estimator

https://en.wikipedia.org/wiki/Winsorising

Tenga en cuenta que esto funciona bien para algunas estadísticas, como cuando se calcula la media. La media recortada / winsorizada es a menudo una mejor estimación de la verdadera media que la media aritmética. En otros casos, puede arruinar sus estadísticas. Por ejemplo, al calcular la varianza, el recorte siempre subestimará la verdadera varianza. La winsorización, asumiendo que efectivamente algunas de las observaciones extremas son defectuosas, funcionará entonces un poco mejor (probablemente seguirá subestimando, pero no tanto).

No veo cómo sustituir los valores extremos por la media podría encajar aquí.

Sin embargo, hay otra práctica que está relacionada: imputación de valores perdidos . Asumiendo que su valor atípico es un dato defectuoso, sin valor, por lo que lo elimina. Al realizar la imputación, un valor sustitutivo típico sería la media o la moda:

https://en.wikipedia.org/wiki/Imputation_%28statistics%29

Respondido el 30 de Noviembre, 2013 por Amadiere (5606 Puntos )

Answer 3

2voto

Nick Russo Puntos 51

El enfoque tradicional para tratar los valores atípicos consiste en eliminarlos de forma que el modelo se entrene sólo con datos "buenos".

Tenga en cuenta que el valor medio se ve afectado por la presencia de esos valores atípicos. Si sustituye los valores atípicos por la media calculado después de eliminar los valores atípicos de su conjunto de datos No obstante, no habrá ninguna diferencia, ya que la línea de regresión (de la regresión lineal simple) pasará por la media de los datos de entrenamiento (aunque esto reducirá la varianza de las estimaciones, lo que probablemente sea lo contrario de lo que quieres, ya que sabes que hay valores atípicos).

El efecto que su enfoque tendrá en el modelo depende de la influencia (apalancamiento) del valor atípico. Yo recomendaría no adoptar el enfoque que sugieres en lugar de eliminar el punto por completo.

Respondido el 29 de Noviembre, 2013 por Nick Russo (51 Puntos )

Answer 4

0voto

Sujit Jena Puntos 1

Sí, los valores atípicos pueden ser sustituidos de muchas formas, por ejemplo, tomemos un conjunto de datos del tamaño de las alturas humanas, digamos que tenemos algunos valores atípicos como 500 cm y 400 cm entonces, podemos simplemente reemplazar esos puntos de datos que aparecen en el conjunto de datos debido a algún error que fue causado durante la grabación de los datos. Así que las opciones que puedes probar son 1. reemplazar con la Mediana de todo el color de los datos (no la media, ya que es propensa a los valores atípicos). 2. reemplazar con el punto de datos que más ocurra en la Columna. 3. Si se trata de valores categóricos, se puede intentar la codificación de la respuesta (en la que se registra la probabilidad de que la palabra o los valores se produzcan por el número total de palabras).

Respondido el 17 de Octubre, 2019 por Sujit Jena (1 Puntos )

Sustitución de los valores atípicos por la media

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Sustitución de los valores atípicos por la media

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: