2 votos

Búsqueda estadística de dos agujas en pajares aleatorios

He escrito un script para analizar unos datos en el trabajo, y por cada ejecución, sale una larga lista de enteros. Cada conjunto de resultados es una distribución de frecuencias (cada entero aparece de una a muchas veces). El conjunto de resultados también incluye dos enteros particulares que tengo que identificar automáticamente (llamados "co-par"). [P.D. El "co-par" es sólo un término que utiliza mi supervisor, no es un término matemático estándar. ]

He probado el script con conjuntos de datos más pequeños en los que ya sé cuál debe ser el co-par, y me he dado cuenta de que ninguno de los enteros del co-par es siempre el más frecuente o el menos frecuente del conjunto. Ahora no sé qué otra forma hay de examinar estadísticamente el conjunto de resultados y encontrar automáticamente el par de correspondencia para cualquier conjunto de datos.

Tengo una formación relativamente débil en estadística, así que espero que alguien pueda orientarme en la dirección correcta.

Edición: Más contexto.

Esencialmente, después de analizar mis datos tengo muchos conjuntos de distribuciones de frecuencias y quiero comparar todos los conjuntos a la vez para encontrar respuestas que "definan el par", como por ejemplo (a) "los co-pares están SIEMPRE en la ojiva 35 y en la ojiva 80" o (b) "los co-pares son SIEMPRE la moda y el número menos frecuente de cada conjunto", etc. La solución definitivamente no es ninguna de las anteriores, pero ¿qué métodos estadísticos puedo utilizar para comparar muchos conjuntos de datos para explorar la relevancia de las agujas particulares en cada pajar, para obtener una respuesta que funcione para identificar el co-par dentro de TODOS los conjuntos, una respuesta como (a) o (b)?

Editar dos: Tengo miles de conjuntos de datos en los que ya sé cuáles son las parejas. Quiero analizarlos estadísticamente e investigar lo que posiblemente los define dentro de cada conjunto, para poder aplicar los mismos métodos a los otros millones de conjuntos de datos en los que NO conozco los co-pares.

1voto

jlupolt Puntos 369

Los métodos utilizados para resolver estos problemas se denominan generalmente Aprendizaje automático . Pero, para que usted pueda utilizar estos métodos, tiene que postular primero un modelo de cómo cree que se eligen estos "co-pares", basándose en su comprensión de lo que estos datos representan realmente .

Un método general que puedes utilizar es si los datos que obtienes para cada ejecución tienen una longitud constante (si no es así, siempre puedes hacer que sea así utilizando métodos de remuestreo). Ahora tienes un conjunto de $N$ vectores de longitud $M$ (donde $N \gg M$ ), se quiere encontrar para cada uno un par de números $x,y$ .

A continuación, puede intentar ejecutar un método clasificador como SVM para encontrar, dado un nuevo vector de longitud $M$ cuáles son las probabilidades de obtener números $x,y$ .

El aprendizaje automático es un tema complejo y delicado, que no se presta muy bien a la programación "plug & play". Probablemente tendrás que dedicar mucho tiempo a estudiarlo antes de obtener buenos resultados, y si este problema es fundamental para tu empresa, quizá quieras recurrir a los servicios de un experto en la materia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X