Tengo un par de valores atípicos en mis datos y quería excluirlos para ver si esto cambia los resultados. En tu opinión, ¿cuál es el número máximo de valores atípicos al que uno debería restringirse?
¡Gracias!
Tengo un par de valores atípicos en mis datos y quería excluirlos para ver si esto cambia los resultados. En tu opinión, ¿cuál es el número máximo de valores atípicos al que uno debería restringirse?
¡Gracias!
No hay un máximo o mínimo. Los valores atípicos deben ser eliminados si son datos incorrectos o si existen otras razones fundamentales para eliminarlos. Si no hay razones fundamentales, entonces sugiero utilizar métodos que sean robustos a los valores atípicos. No eliminaría los valores atípicos solo porque están un poco alejados de otros puntos.
De acuerdo. Tenga en cuenta que Box, Hunter & Hunter: "Statistics for Experimenters" afirma que en la industria química, los valores atípicos a menudo han dado lugar a nuevas patentes. ¡Dependiendo de las circunstancias, los valores atípicos podrían ser la pieza más importante de información en sus datos! Eliminarlos nunca debe tomarse a la ligera.
También en astrofísica. "Simplemente eliminemos los agujeros negros y las estrellas de neutrones de los datos" :-).
Peter Flom: ¡Sí! ¡Y entre los seres humanos, si no hubiera valores atípicos entre nosotros, seguiríamos viviendo en la Edad de Piedra!
Quisiera hacer hincapié en algo que se dijo en otra respuesta y comentarios (creo que la respuesta de @Peter Flom es precisa y que EdM tiene razón sobre las mediciones, entre otros).
Analizar datos es algo que debe hacerse con cuidado. Debes ser muy consciente del significado de los valores atípicos en tu contacto. Por ejemplo, asumiendo que tu procedimiento de medición se hizo "correctamente" (es decir, no has introducido sesgos, tu equipo estaba calibrado, la persona que lee el instrumento lo hizo correctamente, etc. etc.), algunos valores atípicos pueden indicar algo interesante y a veces muy importante.
Aquí hay un ejemplo inventado, por favor, sé indulgente (señálalo en los comentarios) si no es 100% correcto en todos los aspectos. ;)
Supongamos que alguien está probando el efecto de aplicar una cierta cantidad de una sustancia a algunas culturas (poblaciones) de bacterias. Ahora, "en general", el efecto es estabilizar el número de bacterias en la población, pero hay algunos valores atípicos entre las diferentes culturas.
Imagina que todos tus valores atípicos indican situaciones donde todas las bacterias están muertas. O que todos los valores atípicos representan culturas donde las poblaciones de bacterias han crecido fuera de control.
Lo que quiero señalar es que la naturaleza de tus valores atípicos percibidos puede ser significativa y las consecuencias de cada uno son diferentes. Puedes estar en una situación en la que sea intolerable que el número de bacterias aumente, o disminuya.
Por supuesto, si notas que algunas poblaciones fueron eliminadas por la sustancia, probablemente investigarías sobre el asunto ya que es una situación fácilmente reconocible. Pero no todos los fenómenos son fácilmente detectables.
Para resumir, la noción de valores atípicos es algo arbitraria, pero sus significados son múltiples y de diferentes importancias. ¡Espero que te haga pensar sobre el tema! :)
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.
0 votos
Tu gráfico está desconfigurado aquí: las etiquetas numéricas en el eje y faltan y las entradas de la leyenda no son distintas. (Eso puede ser una forma de ocultar datos no publicados, pero no nos ayuda a darte un buen consejo). La leyenda críptica no afecta tu pregunta, pero no conocer la escala en la que estás trabajando limita el alcance de respuestas útiles. Los datos mostrados exhiben una moderada asimetría izquierda o negativa; esto puede tener sentido, y los valores atípicos aparentes pueden ser solo consecuencias de eso. Alternativamente, puede ser que hayas sobretransformado, por ejemplo usando logaritmos donde los datos no lo merecen.