Explicaré el problema, pero lo que busco son algunos métodos sugeridos para abordar este problema. No necesitas saber lo que es un microarray pero si te interesa mira aquí texto del enlace La información que sigue es simplificada, no está dirigida a un microbiólogo (yo no lo soy)
Datos:
En un array hay unas 250.000 sondas que miden cada una una parte de una muestra de ADN. Un array es específico para un individuo (germen, persona....). Si el array está diseñado para mi ADN y ponemos el tuyo en él, algunas sondas coincidirán (creo que ambos somos humanos) y otras no. Si coinciden la medición es alta (la sonda brilla) como el ADN en una sonda coincide menos brilla menos. Hay una variación muy alta en cada sonda a través del mismo ADN. Así que es muy difícil saber si una muestra individual coincide (el mismo ADN) a nivel de sonda.
Si los datos fueran buenos, podríamos hacer una simple prueba de hipótesis para determinar si la sonda de la muestra es la misma que el ADN para el que se fabricó el array. Debido a la alta varianza, esto no funcionará.
Pregunta:
Buscamos una forma de tener en cuenta las mediciones en otras sondas para mejorar la prueba en una sonda. Sabemos más o menos que esto debería funcionar (basándonos en el ADN) pero no estamos seguros de cómo elegir las sondas que mejor ayudarán para cada una del conjunto de 250.000 sondas o qué método estadístico sería el mejor para utilizar la información sobre las otras sondas para probar una sonda individual.
Un ejemplo diferente, quizá más fácil de entender:
Una persona tiene 6 características, digamos peso, altura, edad, ingresos, fecha de nacimiento (db), educación, raza. Me mido las características a mí mismo, pero mis herramientas de medición son realmente malas, así que hago varias mediciones pero tengo una variación muy grande en mis mediciones. Ahora mido a otra persona y quiero saber si tiene unos ingresos diferentes a los míos. Pero mis herramientas de medición son tan malas que casi cualquier ingreso medido de otra persona estaría dentro de mi intervalo de confianza. (Sólo puedo medir a la otra persona una vez, Los mata ☺ ) Pero sé que otras características deben ser capaces de ayudarme a determinar si los ingresos son los mismos. No sé cuáles (peso, altura, edad, db, educación, raza). Necesito un método para elegir las características más útiles/útiles. Supongamos que sé que la altura y la edad pueden ayudar a determinar si nuestros ingresos son iguales o diferentes. ¿Cuál sería el método estadístico utilizado?
Tengo lo que podría llamarse un conjunto de entrenamiento. Es decir en saber lo que es y no es lo mismo.
Respuesta de @sheldon-cooper, "Nota: nada de esto dará una "puntuación de significación"", Un valor de confianza es lo suficientemente bueno. No necesito una "Prueba" estadística
Como MD espero que esta sea una pregunta aceptable para MathOverFlow.net. y espero que puedan entender la pregunta tan abreviada como es. Si alguien quiere ayudarme a reescribir o tiene alguna sugerencia sobre cómo puedo reescribir la pregunta sin todo el trasfondo biográfico y como una pregunta de estadística más específica, que me lo haga saber.