He escrito un script para analizar unos datos en el trabajo, y por cada ejecución, sale una larga lista de enteros. Cada conjunto de resultados es una distribución de frecuencias (cada entero aparece de una a muchas veces). El conjunto de resultados también incluye dos enteros particulares que tengo que identificar automáticamente (llamados "co-par"). [P.D. El "co-par" es sólo un término que utiliza mi supervisor, no es un término matemático estándar. ]
He probado el script con conjuntos de datos más pequeños en los que ya sé cuál debe ser el co-par, y me he dado cuenta de que ninguno de los enteros del co-par es siempre el más frecuente o el menos frecuente del conjunto. Ahora no sé qué otra forma hay de examinar estadísticamente el conjunto de resultados y encontrar automáticamente el par de correspondencia para cualquier conjunto de datos.
Tengo una formación relativamente débil en estadística, así que espero que alguien pueda orientarme en la dirección correcta.
Edición: Más contexto.
Esencialmente, después de analizar mis datos tengo muchos conjuntos de distribuciones de frecuencias y quiero comparar todos los conjuntos a la vez para encontrar respuestas que "definan el par", como por ejemplo (a) "los co-pares están SIEMPRE en la ojiva 35 y en la ojiva 80" o (b) "los co-pares son SIEMPRE la moda y el número menos frecuente de cada conjunto", etc. La solución definitivamente no es ninguna de las anteriores, pero ¿qué métodos estadísticos puedo utilizar para comparar muchos conjuntos de datos para explorar la relevancia de las agujas particulares en cada pajar, para obtener una respuesta que funcione para identificar el co-par dentro de TODOS los conjuntos, una respuesta como (a) o (b)?
Editar dos: Tengo miles de conjuntos de datos en los que ya sé cuáles son las parejas. Quiero analizarlos estadísticamente e investigar lo que posiblemente los define dentro de cada conjunto, para poder aplicar los mismos métodos a los otros millones de conjuntos de datos en los que NO conozco los co-pares.