15 votos

Procedimiento automatizado para la selección de un subconjunto de puntos de datos w/ correlación más fuerte?

¿Hay alguna norma de procedimiento (que se podría citar como referencia) para seleccionar el subconjunto de puntos de datos de un conjunto más amplio con la correlación más fuerte (a lo largo de dos dimensiones)?

Por ejemplo, digamos que usted tiene 100 puntos de datos. Quieres un subconjunto de 40 puntos con la correlación más fuerte posible a lo largo de X e y las dimensiones.

Me doy cuenta de que la escritura de código para hacer esto sería relativamente sencillo, pero me pregunto si hay alguna fuente citar?

36voto

eelco Puntos 1459

Tengo un tiempo difícil imaginar un contexto en el que esta sería una buena práctica, pero supongamos por un momento que usted, de hecho, tiene una buena razón para hacerlo.

Un algoritmo de fuerza bruta podría ser algo como esto:

  1. Calcular todos los posibles sub-muestras de n fuera de su total de la muestra de N. la Mayoría de los paquetes estadísticos tienen funciones para el cálculo de combinaciones sin reemplazos que va a hacer esto para usted.

  2. Se puede calcular la correlación entre x y y para cada una de las sub-muestras y seleccione el máximo fuera de ese conjunto.

Acabo de ver el cartel original del comentario con respecto a una referencia para este procedimiento. No estoy seguro de que alguien tiene un nombre específico para este procedimiento después de todo ustedes son simplemente generar una distribución empírica de todas las posibles correlación en el conjunto de datos y la selección de la máxima. Enfoques similares se utilizan cuando se hace bootstraping, pero en caso de que usted está interesado en la variabilidad empírica, que NO los use para elegir una submuestra específica asociada con el max.

5voto

Eero Puntos 1612

Yo diría que su método encaja en la categoría general en la que se describe en este artículo de la wikipedia que también tiene otras referencias, si usted necesita algo más que la wikipedia. Algunos de los enlaces dentro de ese artículo también se aplica.

Otros términos que podrían aplicar (si usted quiere hacer algunos más búsqueda) se incluyen los Datos de "Dragado" y "Torturar los datos hasta que se confiesa".

Tenga en cuenta que usted puede conseguir siempre una correlación de 1 si usted acaba de elegir a 2 puntos que no tienen idénticos x o y valores. Había un artículo en Oportunidad de la revista un par de años atrás, que mostró cuando usted tiene una x y y variables que esencialmente no hay correlación usted puede encontrar un camino a la papelera de la x y de la media de la y dentro de los contenedores para mostrar ya sea un aumento o disminución de la tendencia (Posibilidad De 2006, Visual Revelaciones: la Búsqueda de Lo que No Hay a través de la Lamentable el agrupamiento de Los Resultados: Mendel Efecto, páginas 49 a 52). También con un completo conjunto de datos que muestran una moderada correlación positiva, es posible seleccionar un subconjunto que muestra una correlación negativa. Dadas estas, incluso si usted tiene una razón legítima para hacer lo que usted propone, se están dando a cualquier escéptico que un montón de argumentos para usar en contra de las conclusiones que usted viene para arriba con.

4voto

user644745 Puntos 119

El algoritmo RANSAC suena como lo que usted desea. Básicamente, se supone que sus datos se compone de una mezcla de inliers y los valores atípicos, y trata de identificar los inliers por muestreo repetitivo subconjuntos de los datos, el ajuste de un modelo, tratando de encajar en cualquier otro punto de datos para el modelo. Aquí está el artículo de wikipedia al respecto.

En su caso, puede tener que repetir el algoritmo mientras que el ahorro de la actual mejor modelo que se adapta al menos 40 puntos, por lo que no se garantiza la absoluta mejor correlación, pero cerca.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X