34 votos

Sustitución de los valores atípicos por la media

Esta pregunta me la hizo un amigo que no tiene conocimientos de Internet. No tengo conocimientos de estadística y he estado buscando esta pregunta en Internet.

La pregunta es: ¿es posible sustituir los valores atípicos por el valor medio? si es posible, ¿hay alguna referencia de libro/revista que respalde esta afirmación?

45voto

Nick Cox Puntos 22819

Está claro que es posible, pero no está claro que pueda ser una buena idea.

Expongamos varias formas en las que ésta es una solución limitada o deficiente:

  • En efecto, usted está diciendo que el valor atípico es completamente indigno de confianza, hasta el punto de que su única suposición posible es que el valor debe ser la media. Si eso es lo que piensas, es probable que sea más honesto simplemente omitir la observación en cuestión, ya que evidentemente no tienes suficiente información para hacer una mejor estimación.

  • Sin más que decir, se necesita un criterio o criterios para identificar los valores atípicos en primer lugar (como implica @Frank Harrell). De lo contrario, se trata de un procedimiento arbitrario y subjetivo, aunque se defienda como una cuestión de criterio. Con algunos criterios, es posible que la eliminación de los valores atípicos de esta manera cree aún más valores atípicos como efecto secundario. Un ejemplo podría ser que los valores atípicos estén a más de tantas desviaciones estándar de la media. La eliminación de un valor atípico cambia la desviación estándar, y ahora pueden calificarse nuevos puntos de datos, y así sucesivamente.

  • Es de suponer que la media aquí se refiere a la media de todos los demás valores, un punto explicitado por @David Marx. La idea es ambigua sin esta estipulación.

  • El uso de la media puede parecer un procedimiento seguro o conservador, pero el cambio de un valor a la media cambiará casi todas las demás estadísticas, incluidas las medidas de nivel, escala y forma y los indicadores de su incertidumbre, un punto destacado por @whuber.

  • La media puede ni siquiera ser un valor factible: ejemplos sencillos son cuando los valores son enteros, pero normalmente la media no es un número entero.

  • Incluso con la idea de que utilizar una medida de resumen es algo prudente, utilizar la media en lugar de la mediana o cualquier otra medida necesita alguna justificación.

  • Siempre que haya otras variables, modificar el valor de una variable sin referencia a las demás puede hacer que un punto de datos sea anómalo en otros sentidos.

Qué hacer con los valores atípicos es una cuestión abierta y muy difícil. A grandes rasgos, las diferentes soluciones y estrategias tienen un atractivo variable.

Como generalización muy amplia, existe un continuo de opiniones sobre los valores atípicos en la estadística y el aprendizaje automático, desde los pesimistas extremos hasta los optimistas extremos. Los pesimistas extremos se sienten llamados a servir como si fueran oficiales de una Inquisición Estadística, cuyo deber es encontrar los valores atípicos como contaminantes odiosos en los datos y tratarlos con severidad. Esta podría ser la posición, por ejemplo, de las personas que tratan con datos de transacciones financieras, la mayoría honestas o genuinas, pero algunas fraudulentas o delictivas. Los optimistas extremos saben que los valores atípicos son probables y, por lo general, genuinos: el Amazonas, o Amazon, es lo suficientemente real, y realmente grande. De hecho, los valores atípicos suelen ser interesantes, importantes e instructivos. Las inundaciones, los incendios y las crisis financieras son lo que son, y algunos son muy grandes.

Esta es una lista parcial de posibilidades. El orden es arbitrario y no pretende transmitir ningún orden en términos de aplicabilidad, importancia o cualquier otro criterio. Tampoco son enfoques mutuamente excluyentes.

  • Una definición (en mi opinión buena) es que "[l]os valores de la muestra son los que causan sorpresa en relación con la mayoría de la muestra" (W.N. Venables y B.D. Ripley. 2002. Moderna aplicada Estadística Aplicada Moderna con S. Nueva York: Springer, p.119). Sin embargo, la sorpresa está en la mente del que mira y depende de algún modelo tácito o explícito de los datos. Puede haber otro modelo según el cual el valor atípico no es sorprendente en absoluto, por lo que los datos son realmente (digamos) lognormales o gamma en lugar de normales. En resumen, prepárese para (re)considerar su modelo.

  • Vaya al laboratorio o al campo y haga la medición de nuevo. A menudo esto no es factible, pero parece ser lo habitual en varias ciencias.

  • Compruebe si los valores atípicos son auténticos. La mayoría de las pruebas me parecen bastante rebuscadas, pero puede que encuentres una que puedas creer que se ajusta a tu situación. Siempre se necesita una fe irracional en que una prueba es apropiada para aplicar una prueba que luego se presenta como la quintaesencia racional.

  • Tíralos como una cuestión de juicio.

  • Échalos usando alguna regla más o menos automatizada (normalmente no "objetiva").

  • Ignóralos, parcial o totalmente. Esto puede ser formal (por ejemplo, recorte) o simplemente una cuestión de dejarlos en el conjunto de datos, pero omitirlos de los análisis como demasiado calientes para manejarlos.

  • Tire de ellos utilizando algún tipo de ajuste, por ejemplo, Winsorizing.

  • Redúzcalos utilizando algún otro método de estimación robusto.

  • Disminúyelos trabajando en una escala transformada.

  • Disminúyelos utilizando una función de enlace sin identidad.

  • Acomódelos ajustando alguna distribución apropiada de cola gruesa, larga o pesada, sin o con predictores.

  • Acomódese utilizando un indicador o una variable ficticia como predictor adicional en un modelo.

  • Evitar el problema utilizando algún procedimiento no paramétrico (por ejemplo, basado en el rango).

  • Obtener un control de la incertidumbre implícita mediante bootstrapping, jackknifing o procedimiento basado en permutaciones.

  • Editar para reemplazar un valor atípico con un poco más de probable, basado en la lógica determinista. "Una abuela de 18 años es poco probable, pero la persona en cuestión nació en 1932, y ahora es 2013, así que presumiblemente tiene realmente 81 años".

  • Editar para reemplazar un valor atípico imposible o inverosímil utilizando algún método de imputación que actualmente es aceptable no como magia blanca.

  • Analizar con y sin, y ver qué diferencia suponen los valores atípicos, desde el punto de vista estadístico, científico o práctico.

  • Algo bayesiano. Mi desconocimiento previo de qué es lo que me prohíbe dar detalles.

EDITAR Esta segunda edición se beneficia de otras respuestas y comentarios. He intentado marcar mis fuentes de inspiración.

17voto

dan90266 Puntos 609

Hay varios problemas implícitos en su pregunta.

  1. ¿Qué es un "valor atípico"?
  2. ¿Debe sustituirse un "atípico"?
  3. ¿Qué tiene de especial la media frente a otra estimación?
  4. ¿Cómo se compensaría el aumento de la varianza aparente al sustituirla por un único valor que hace que la varianza sea demasiado pequeña?
  5. ¿Por qué no utilizar estimadores robustos resistentes a los valores atípicos?
  6. ¿Es una variable independiente o dependiente?

Ninguno de los 1-5 tiene una respuesta obvia. Si realmente cree que estos "valores atípicos" son erróneos y no quiere utilizar un método estadístico robusto, puede hacerlos desaparecer y utilizar la imputación múltiple como una posible solución. Si la variable es una variable dependiente, una opción robusta es la regresión ordinal.

9voto

Keyslinger Puntos 440

La propuesta tiene numerosos defectos. Este es quizás el más importante.

Supongamos que estás recogiendo datos y ves estos valores:

$$2, 3, 1$$

La media, hasta ahora es $6/3 = 2$ .

Luego viene un atípico:

$$2, 3, 1, 1000$$

Así que lo sustituyes por la media:

$$2, 3, 1, 2$$

El siguiente número es bueno:

$$2, 3, 1, 2, 7$$

Ahora la media es 3. Un momento, la media es ahora 3, pero hemos sustituido 1000 por una media de 2, sólo porque se produjo como cuarto valor. ¿Y si cambiamos el orden de las muestras?

$$2, 3, 1, 7, 1000$$

Ahora la media antes de los 1000 es $(2 + 3 + 1 + 7)/4 = 13/4$ . Así que deberíamos sustituir 1000 por que ¿quieres decir?

El problema es que el dato falso que estamos sustituyendo en lugar de 1000 es dependiente en los otros datos. Eso es un problema epistemológico si se supone que las muestras representan mediciones independientes.

Entonces tienes el problema evidente de que no sólo ocultas los datos que no se ajustan a tus supuestos, sino que los falseas. Cuando se produce algún resultado no deseado, incrementas $n$ y sustituirlo por un valor falso. Esto es incorrecto porque $n$ se supone que es el recuento de muestras. Ahora $n$ representa el número de muestras, más el número de valores falsos añadidos a los datos. Básicamente, destruye la validez de todos los cálculos que implican $n$ incluso los que no utilizan los valores de la falsificación. Su $n$ ¡también es un valor de caramelo!

Básicamente, recortar los resultados que no encajan es una cosa (y puede justificarse si se hace de forma coherente según un algoritmo, en lugar de según los cambios de humor del experimentador).

La falsificación directa de los resultados es objetable por motivos filosóficos, epistemológicos y éticos.

Puede haber algunas circunstancias atenuantes, que tienen que ver con el uso de los resultados. Por ejemplo, digamos que esta sustitución de los valores atípicos por la media actual forma parte del algoritmo de un ordenador integrado, que le permite implementar un sistema de control de bucle cerrado. (Toma muestras de algunas salidas del sistema y luego ajusta las entradas para lograr el control). Todo es en tiempo real, por lo que algo para un periodo de tiempo determinado en lugar de los datos que faltan. Si esta manipulación ayuda a superar los fallos y garantiza un funcionamiento fluido, todo está bien.

He aquí otro ejemplo, de la telefonía digital: PLC (ocultación de pérdida de paquetes). Los paquetes se pierden, pero la comunicación es en tiempo real. El PLC sintetiza trozos de voz falsos basándose en la información de tono reciente de los paquetes recibidos correctamente. Así, si un hablante estaba diciendo la vocal "aaa" y luego se perdió un paquete, PLC puede rellenar el paquete perdido extrapolando el "aaa" para la duración de la trama (digamos 5 o 10 milisegundos o lo que sea). El "aaa" es tal que se asemeja a la voz del hablante. Esto es análogo al uso de una "media" para sustituir los valores considerados malos. Es algo bueno; es mejor que el sonido se interrumpa y ayude a la inteligibilidad.

Si el amaño de datos forma parte de un programa de mentiras a la gente para encubrir un trabajo fallido, eso es otra cosa.

Por tanto, no podemos pensar en ello independientemente de la aplicación: ¿cómo se utilizan las estadísticas? ¿Las sustituciones llevarán a conclusiones no válidas? ¿Hay implicaciones éticas?

6voto

Ali Afshar Puntos 22836

Este artículo de Cousineau y Chartier analiza la sustitución de los valores atípicos por la media

http://www.redalyc.org/pdf/2990/299023509004.pdf

Escriben:

Tabachnick y Fidell (2007) sugirieron reemplazar los datos faltantes con la media de los datos restantes en la celda correspondiente. Sin embargo, este procedimiento tenderá a reducir la dispersión de la población, hará que la distribución observada sea más leptocúrtica y posiblemente aumente la probabilidad de un error de tipo I. Una técnica más elaborada técnica más elaborada, las imputaciones múltiples, consiste en sustituir los valores atípicos (o datos perdidos) por valores posibles (Elliott & Stettler, 2007; Serfling y Dang, 2009).

También hay un paquete de R "outliers" que tiene una función para sustituir los valores atípicos por la media. En mi búsqueda en Google también he visto una serie de resultados que implican que el SPSS también tiene una función de este tipo, pero no estoy familiarizado con ese programa. Quizá si sigues los hilos puedas descubrir la base técnica de la práctica.

Referencias

  • Cousineau, D., & Chartier, S. (2010). Detección y tratamiento de los valores atípicos: una revisión. International Journal of Psychological Research, 3(1), 58-67.

4voto

stili Puntos 598

Lo principal que hay que tener en cuenta al tratar con los valores atípicos es si están proporcionando información útil. Si se espera que se produzcan con regularidad, eliminarlos de los datos garantizará que el modelo nunca los prediga. Por supuesto, depende de lo que quiera que haga el modelo, pero merece la pena tener en cuenta que no debería eliminarlos necesariamente. Si contienen información importante, es posible que quieras considerar un modelo que pueda tenerlos en cuenta. Una forma sencilla de hacerlo es tomar los registros de las variables, lo que puede dar cuenta de las relaciones de ley de potencia. También puede utilizar un modelo que las tenga en cuenta con una distribución de errores de cola gruesa.

Si quiere recortarlas, las formas habituales son dejarlos caer o Winsorise para eliminar los valores extremos. No tengo un libro de texto a mano, pero los enlaces de la Wiki hacen referencia a algunos si quieres leer más. La mayoría de los textos sobre estadística aplicada deberían tener una sección sobre valores extremos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X