4 votos

¿Se puede ignorar el muestreo complejo para análisis exploratorios centrado en el paciente?

Hola compañeros StackExchange los usuarios,

Preámbulo: he sido encargado de la realización de un análisis de conglomerados (o, posiblemente, una latente el análisis de clase, como estoy meditando) para encontrar que no se solapan los grupos como sujetos que se presentan con similar psico-social de los rasgos, como se mide en el conjunto de datos. Hay un a priori de la hipótesis sobre el número de grupos y sus características, pero el análisis es ser exploratoria, en lugar de confirmación, sin embargo. El conjunto de datos contiene varios miles de temas, y alrededor de dos docenas de variables de interés. Tan lejos, tan bueno.

Sin embargo, hay un inconveniente: la encuesta trata de un complejo de múltiples etapas diseño estratificado, que evidentemente viola el SRS de la asunción y sus derivados tradicionales de los errores estándar. Este tipo de diseños a menudo requieren de arranque para proporcionar validez de las inferencias. Observación de pesos han sido proporcionados por los arquitectos de la encuesta.

Mi pregunta: dado que las estadísticas son exploratorio y no confirmatoria, y que no formales de deducciones de cualquier tipo que se producen en este paciente-centrado en el análisis (no incluso la precisión de las estimaciones, tales como los intervalos de confianza), el complejo diseño de la encuesta se omite en la buena fe?

La única advertencia puede ser uno de validez externa; ciertos grupos demográficos se han muestreado. Pero el uso de la observación de pesos al calcular la distancia/matrices de covarianza debe dar cuenta de esto, ¿no?

Muchas gracias,
Brenden

4voto

StasK Puntos 19497

No hay una buena respuesta a esta. Consideremos un gran trío de estadísticas encuesta: estratificación, agrupación o de múltiples etapas de los procedimientos de selección, y probabilidades desiguales de selección/los pesos de muestreo.

La razón por la encuesta de los estadísticos utilizan la estratificación es porque no quieres degustar poco de todo y no repetir el muestreo de unidades similares; una perfecta estratificación es cuando usted encuentra un grupo altamente objetos similares, y acaba de tomar un puñado de estos. Así que usted debe a priori esperar que las unidades dentro de un mismo estrato a ser similares; no sé si usted puede venir para arriba con una medida de la distancia a la que cuentas para que-por ejemplo, mediante el descuento de las distancias de las unidades si están dentro del mismo estrato?

Asimismo, las unidades dentro de la misma unidad primaria de muestreo puede ser similar, a pesar de que es un parásito de efecto para las estimaciones de la encuesta que aumenta desviaciones.

El efecto de la muestra pesos en el análisis de cluster es totalmente claro. Los pesos están conectados a las unidades individuales, entonces, ¿cómo usted viene para arriba con un peso por su distancia? Encuesta estadísticos a veces trabajo con pares de la probabilidad de selección de pesos, pero esto sólo es relevante si usted está tratando de estimar una cantidad de la población de que es un U-estadística de orden superior (índice de Gini), o implica la segunda orden momentos del diseño (la varianza de Horwitz-Thompson estimador). Las distancias en el análisis de cluster son momentos de segundo orden de los datos, por lo que no está del todo claro si deben ser acompañados con la encuesta de pesos, y si así debe ser, cómo estos pesos debe ser expresado.

La corrección puede llevar a algunos extraños efectos en términos de la sensibilidad de su algoritmo y el número de detectado grupos. Si usted tiene algunas observaciones con altos pesos que representan una fracción significativa de la población (ya sea porque pocos respondieron, o por diseño), su algoritmo puede extrañar a todos ellos, si se tiene la especificación de que el menor número de puntos que se quiere considerar como un cluster interesante.

Lo ideal sería que desea purgar el diseño de la encuesta la información de sus datos y analizar los datos que tienen las dependencias subyacentes solo. Sin embargo, otra característica de las buenas encuestas es que el diseño de la información a menudo está relacionada con los resultados de interés, a menudo inexplicable maneras.

Como una línea de fondo, me alegro de que no tengo que hacer este trabajo :)

Por CIERTO, su inequívoco de la fe en la capacidad del bootstrap para arreglar cualquier cosa puede no estar muy bien justificado. Me puede dar el nombre de 3-5 o tan complejo de la encuesta de bootstrap esquemas de la parte superior de mi cabeza, y otra 5-8 si miro mis apuntes. Shao (1996) le dio una gran revisión de los actuales métodos de remuestreo; nada absolutamente importante ocurrió desde entonces.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X