5 votos

¿Cómo tratar el tema de la multicolinealidad cuando se analizan los resultados de la encuesta?

Hace poco realicé mi primer estudio sobre la educación de los padres como determinante del riesgo. Realicé una encuesta que medía el riesgo en varios contextos y también registraba información sobre los individuos como el género, la altura y todos los demás sospechosos habituales. Se ha trabajado poco sobre el efecto de la etnia en el riesgo y también del país de origen/residencia en el riesgo (una interesante pregunta de investigación secundaria). La cuestión es que la nacionalidad de los padres está muy correlacionada con la de los hijos (como cabría esperar) en la medida en que Minitab ha descartado diversos factores determinantes por estar muy correlacionados. Debido a la naturaleza de la muestra (estudiantes en el Reino Unido) la correlación es algo que es inevitable.

No deseo descartar las variables sólo porque estén altamente correlacionadas, aunque he visto algunas sugerencias para hacerlo. ¿Hay alguna manera de superar este problema? De lo contrario, ¿de qué otra forma se podría considerar el efecto marginal del país de nacimiento/nacionalidad de los padres en sus preferencias de riesgo? ¿Estoy pasando por alto algo simple?

4voto

gina Puntos 11

Esta es una gran pregunta, aquí está mi intuición:

El tipo de problema del que hablas tiene que ver con identificación Cuando realizamos un análisis causal, nos gustaría poder hacer afirmaciones sobre los efectos de varias variables diferentes. Sin embargo, en casos de gran dependencia entre las variables (como éste), nuestra capacidad para hacer separar las afirmaciones sobre las variables está muy restringida.

Intentaré dar un ejemplo utilizando sus datos. (Aunque puede que me equivoque, por favor, corrígeme si me equivoco en tu caso):

Origen étnico de los padres y etnia de los niños están muy estrechamente ligados en su muestra - otra forma de decir esto es que tiene muy pocas observaciones (si es que hay alguna) en las que son diferentes. Esto significa que (estadísticamente hablando) no podrá diferenciar el impacto causal de la etnia de los padres frente a la de los hijos.

El tipo de datos que se necesitaría para hacer afirmaciones de este tipo serían las observaciones en las que estas variables son diferentes entre sí (quizás observando las parejas multirraciales, o los niños adoptados). En ausencia de estos datos, no podrá diferenciar estos impactos.

En cierto sentido, se trata de una noticia desalentadora (ya que nos gustaría poder estimar los efectos por separado), pero en otro sentido, este resultado es totalmente sensato. Si pensamos que la etnia es generalmente un rasgo estable a nivel familiar, entonces puede tener sentido pensar en la etnicidad como una especie de paquete de efectos - conocer la etnicidad de un niño puede decir algo significativo también sobre el origen étnico de sus padres, por lo que, en cierto sentido, sería inusual informar sobre una fuerte distinción entre estos constructos.

En resumen, no estás haciendo nada mal (al menos en mi opinión) El tipo de problema que has identificado tiene que ver con una propiedad de los datos que es difícil de sortear, más que con un problema en la forma en que se está realizando el análisis.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X