5 votos

Resumen de datos de medición correlacionados pero ruidosa

En un experimento varias las mediciones se toman con similares pero diferentes instrumentos de medición. (El número de los instrumentos de medición utilizados en un solo experimento puede variar de 2 a 500 instrumentos, pero la mayoría tienen un número bajo (~2 - 3) de los instrumentos utilizados.) Dado que todos los instrumentos están midiendo el mismo efecto, se espera que se produzcan mediciones similares, pero, posiblemente, con la diferencia de fuentes y niveles de ruido. Algunas de las herramientas de medición, sin saberlo, puede estar funcionando mal y producir datos erróneos por completo. Esto significa que la mayoría de las medidas son un poco correlacionados (> 0.8), pero algunos podrían estar correlacionadas o incluso inversamente correlacionados. ¿Cómo se puede resumir en las mediciones de los instrumentos de tal manera como para representar mejor el valor real de la cantidad que se mide?

Los posibles enfoques a este problema podría incluir el uso de:

(1) un modelo de regresión para ajustarse a las medidas y luego interpolar la medición del valor resumido, (2) el primer componente de un análisis de componentes principales, (3) o las puntuaciones a partir de un análisis factorial.

Qué método es el más apropiado para tratar con la tarea o es otro método mejor para hacer este resumen?

1voto

JMW.APRN Puntos 21

Entiendo por el contexto de tu pregunta de que algunas medidas están sesgados (ya que se puede obtener de los datos erróneos), por lo que el resumen estará sesgada. Hasta donde yo soy consciente, el marco teórico de la regresión lineal, la PCA y el análisis factorial se supone imparcial registros, por lo que sus propiedades pueden ser diferentes en su caso.

Por esa razón, me gustaría utilizar robusto métodos, que no son excesivamente influenciado por los valores extremos. Robustos de regresión lineal se ha trabajado hace algún tiempo, y es fácilmente disponible en R. La más sencilla es la función rlm en el paquete MASS, el cual es utilizado como el no robusto función lm. Después de una rápida búsqueda en Google, me parecía que los métodos robustos para el PCA y el análisis factorial están todavía en desarrollo y mucho más difícil de usar. Si usted es un usuario R, usted puede tener una mirada en el documento de rrcov y robCompositions.

Yo soy un gran fan de la PCA, pero aquí me gustaría recomendar la forma más fácil, al menos para empezar, cuál es su método (1) con regresión robusta.

1voto

Jamie Puntos 1062

sin una clara respuesta de la variable, me gustaría descartar la regresión de cualquier tipo. como se dijo, el problema aquí es el resumen de medidas a partir de una variedad de instrumentos. con ese fin, tanto del PCA y de FA métodos son adecuados, sin embargo, se debe reconocer que los efectos (y los siguientes inferencias) se diferencian de estos dos métodos.

PCA busca reducir, o resumen, una serie de medidas de acuerdo a los composites de las variables observadas (bueno, los coeficientes resultantes de la estimación de los componentes). factor de análisis, por otro lado, supone un subyacente o latente de distribución que se manifiesta a través de los diversos resultados de la medición. ambos de estos métodos permiten "ruidoso" y correlación de datos - de hecho, se basa en el análisis de covarianza - pero requieren algunos supuestos acerca de la normalidad de las observaciones. yo no estoy tan seguro acerca de la PCA, pero FA métodos son razonablemente robustos a las violaciones de la normalidad; en condiciones extremas de no-normalidad existen procedimientos alternativos y los ajustes que se pueden aplicar (finney y distefano, 2006).

simplemente: si su objetivo es reducir el número de mediciones, PCA es tu amigo. si usted está tratando de explicar la base de los fenómenos a través de múltiples medidas, FA es probablemente su mejor opción.

nota: el ruido puede ser utilizado para describir la variación aleatoria o no un sesgo sistemático, que se espera por tanto PCA y FA. el sesgo sistemático, sin embargo, es molesto para la mayoría de los problemas de medición.


Finney, S. J., & DiStefano, C. (2006). Anormal y datos categóricos en los modelos de ecuaciones estructurales. En G. R. Hancock & R. O. Müller (Eds.). Un segundo curso, en el modelado de ecuaciones estructurales (p 269 - 314). Greenwich, CT: la era de la Información.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X