Como tengo datos con una variable que recoge el número de páginas que la gente lee al día. Sabía que no podía encontrar un valor atípico por 1,5*IQR ya que el 70% de los datos son 1-20. He leído que necesito transformar mis datos primero, pero ¿es posible que una variable lo haga con su frecuencia?
Respuesta
¿Demasiados anuncios?Si se quiere encontrar el 2,5% de los valores más bajos y el 2,5% de los valores más altos, que es lo que se hace mirando los valores que son más de 1.5×IQR1.5×IQR de la media para una distribución normal, se podría mirar el 2,5% de los valores que son más bajos y el 2,5% que son más altos.
Que sea un enfoque sensato (tanto para el caso de la distribución normal como para tu ejemplo) depende de por qué quieres encontrar esos valores, por supuesto.
Por ejemplo, si quiere encontrar valores atípicos, porque cree que los "valores atípicos extraños" deben excluirse de un análisis, en general es una forma muy mala de hacerlo: aunque no haya absolutamente nada malo en ninguno de sus puntos de datos, sigue excluyendo el 5% de los datos, mientras que si todos los datos son problemáticos, sigue manteniendo el 95% de ellos. De hecho, los métodos que sólo se fijan en la posición de un valor concreto en relación con otros valores no suelen ser buenos para detectar puntos de datos "inusuales".