Note seguro si existe un concepto de estadísticas para esto, pero tengo un conjunto de datos que consiste mayormente en pequeños puntos de datos con unos pocos grandes.
por ejemplo, 1 2 1 3 1 2 87 3 2 1 1 1 1 1 3 1 2 1 1 1 99
¿Cómo puedo filtrar este conjunto de datos para obtener sólo los valores que constituyen desproporcionadamente el grueso de la información? Actualmente estoy filtrando por puntos de datos que existen unas cuantas desviaciones estándar, pero esto no me dice qué % del total estoy obteniendo. (p.ej. si me salgo 2 desviaciones estándar, ¿obtengo el 70% de la información? si me salgo 5, ¿es el 95%? Sólo sé qué porcentaje del número de puntos de datos representa, no el porcentaje de los datos)
Quiero eliminar tantos puntos de datos como sea posible sin eliminar los puntos de datos importantes. Así que si tengo una media de 5 y una desviación std de 20, filtro los puntos de datos que sean menores de 45 (20 + 20 + 5). Esto elimina, digamos, el 95% de los puntos de datos, pero entonces el conjunto de datos puede parecer: 50 46 90 80 44 99999 57 87 88. El Principio de Pareto aquí se aplica recursivamente con este 99999. En este escenario me gustaría mantener sólo el 99999 ya que representa el 99% de los datos, pero no lo sé por usar una regla empírica de desviación std.
Por ejemplo, mucha gente estará de acuerdo en que el 1% de la gente puede tener el 99% de la riqueza. Si se divide en esos datos, se encuentra que el 1% de ese 1% posee el 99% de esa riqueza. Lo que significa que el 0,01% de la gente tiene el 98% de la riqueza. Esta segunda información es sorprendente ya que muestra a los "grandes" de los "grandes". Esto podría ir más allá con los "tipos grandes" de los "tipos grandes" de los "tipos grandes" (tipos grandes^3) Tal vez una persona tiene el 95% de toda la riqueza. ¿Cómo puedo analizar mis datos para esto? Si se le da un gráfico de pastel o de barras, obviamente sería de un vistazo.