A menudo se habla de cómo tratar los valores atípicos en las estadísticas. Lo que me molesta de esto es que, hasta donde yo sé, la definición de un valor atípico es completamente subjetiva. Por ejemplo, si la verdadera distribución de alguna variable aleatoria tiene muchas colas o es bimodal, cualquier visualización estándar o estadística de resumen para detectar valores atípicos eliminará incorrectamente partes de la distribución de la que se quiere tomar una muestra. ¿Cuál es la definición rigurosa de un valor atípico, si es que existe, y cómo pueden tratarse los valores atípicos sin introducir cantidades irrazonables de subjetividad en un análisis?
Respuestas
¿Demasiados anuncios?Siempre que los datos procedan de una distribución conocida con propiedades conocidas, se puede definir rigurosamente un valor atípico como un suceso que es demasiado improbable que haya sido generado por el proceso observado (si se considera que "demasiado improbable" no es riguroso, entonces todas las pruebas de hipótesis lo son).
Sin embargo, este enfoque es problemático en dos niveles: Supone que los datos proceden de una distribución conocida con propiedades conocidas, y conlleva el riesgo de que los valores atípicos se consideren puntos de datos que fueron introducidos de contrabando en el conjunto de datos por algunos hados mágicos.
En ausencia de hadas mágicas de los datos, todos los datos provienen de su experimento, y por lo tanto no es posible tener valores atípicos, sólo resultados extraños. Éstos pueden provenir de errores de registro (por ejemplo, una casa de 400.000 habitaciones por 4 dólares), de problemas sistemáticos de medición (el algoritmo de análisis de imágenes informa de áreas enormes si el objeto está demasiado cerca del borde), de problemas experimentales (a veces, los cristales precipitan fuera de la solución, lo que da una señal muy alta), o de características de tu sistema (una célula a veces puede dividirse en tres en lugar de dos), pero también pueden ser el resultado de un mecanismo que nadie ha considerado nunca porque es raro y estás haciendo investigación, lo que significa que algunas de las cosas que haces simplemente no se conocen todavía.
Lo ideal es dedicar tiempo a investigar todos los valores atípicos y sólo eliminarlos del conjunto de datos cuando se entienda por qué no se ajustan al modelo. Esto lleva mucho tiempo y es subjetivo, ya que las razones dependen en gran medida del experimento, pero la alternativa es peor: si no se entiende de dónde proceden los valores atípicos, hay que elegir entre dejar que los valores atípicos "estropeen" los resultados o definir un enfoque "matemáticamente riguroso" para ocultar la falta de comprensión. En otras palabras, al perseguir la "rigurosidad matemática" eliges entre no obtener un efecto significativo o no llegar al cielo.
EDITAR
Si todo lo que tienes es una lista de números sin saber de dónde vienen, no tienes forma de saber si algún punto de datos es un valor atípico, porque siempre puedes suponer una distribución en la que todos los datos son inliers.
Tienes razón en que la eliminación de los valores atípicos puede parecer un ejercicio subjetivo, pero eso no significa que esté mal. La necesidad compulsiva de tener siempre una razón matemática rigurosa para cada decisión relativa a su análisis de datos es a menudo sólo un fino velo de rigor artificial sobre lo que resulta ser un ejercicio subjetivo de todos modos. Esto es especialmente cierto si quieres aplicar la misma justificación matemática a cada situación que se te presente. (Si existieran reglas matemáticas claras a prueba de balas para todo, no se necesitaría un estadístico).
Por ejemplo, en su situación de distribución de cola larga, no hay ningún método garantizado para decidir simplemente a partir de los números si tiene una distribución subyacente de interés con valores atípicos o dos distribuciones subyacentes de interés con valores atípicos que forman parte de sólo uno de ellos. O, Dios no lo quiera, sólo la distribución real de los datos.
Cuantos más datos se recopilan, más se entra en las regiones de baja probabilidad de una distribución. Si recoges 20 muestras, es muy poco probable que obtengas un valor con una puntuación z de 3,5. Si recoges 10.000 muestras, es muy probable que obtengas una y es una parte natural de la distribución. Teniendo en cuenta lo anterior, ¿cómo se decide excluir algo porque sea extremo?
La selección de los mejores métodos de análisis en general suele ser subjetiva. Que sea irrazonablemente subjetiva depende de la explicación de la decisión y del valor atípico.
No creo que sea posible definir un valor atípico sin asumir un modelo del proceso subyacente que da lugar a los datos. Sin ese modelo no tenemos un marco de referencia para decidir si los datos son anómalos o "erróneos". La definición de valor atípico que he encontrado útil es que un valor atípico es una observación (u observaciones) que no puede conciliarse con un modelo que, por lo demás, funciona bien.
Hay muchas respuestas excelentes aquí. Sin embargo, quiero señalar que se confunden dos preguntas. La primera es, "¿qué es un valor atípico?", y más concretamente dar una "definición rigurosa" de los mismos. Esto es sencillo:
Un valor atípico es un punto de datos que proviene de una población / distribución / proceso de generación de datos diferente al que se pretende estudiar / el resto de los datos.
La segunda pregunta es "¿cómo puedo saber/detectar que un punto de datos es un valor atípico? Por desgracia, esto es muy difícil. Sin embargo, las respuestas dadas aquí (que realmente son muy buenas, y que no puedo mejorar) serán bastante útiles con esa tarea.
- Ver respuestas anteriores
- Ver más respuestas