20 votos

Interpretación de proporciones que suman uno como variables independientes en la regresión lineal

Estoy familiarizado con el concepto de variables categóricas y la respectiva codificación de variables ficticias que nos permite ajustar un nivel como línea de base para evitar la colinealidad. También sé cómo interpretar las estimaciones de los parámetros de estos modelos: El cambio previsto en el resultado para un determinado nivel ajustado del predictor categórico, en relación con la categoría de referencia.

Lo que no tengo claro es cómo interpretar un conjunto de variables independientes que son proporciones que suman uno . De nuevo tenemos colinealidad si ajustamos todas las proporciones en el modelo, así que presumiblemente tendríamos que dejar una categoría fuera como línea de base. También supongo que tendría que mirar el tipo III SS para la prueba general de la significación de esta variable. Sin embargo, ¿cómo interpretamos las estimaciones de los parámetros para los niveles ajustados en el modelo frente a los que se consideran de referencia?

Un ejemplo : A nivel de código postal, la variable independiente es la proporción de rocas metamórficas, ígneas y sedimentarias. Como ya sabrá, estos son los tres tipos principales de rocas, y todas las rocas se clasifican en uno de ellos. Por lo tanto, las proporciones de las tres suman 1. El resultado es el nivel medio de radón en un código postal determinado.

Si tuviera que ajustar, digamos, el metamórfico y ígneo proporciones como predictores en el modelo, dejando sedimentario como referencia, un SS global de tipo III F -prueba de los dos niveles ajustados significaría si el tipo de roca, en su conjunto, es un predictor importante del resultado (nivel medio de radón). A continuación, podría examinar cada p -(basados en el t ) para determinar si uno o ambos tipos de roca eran significativamente diferentes de la línea de base.

Sin embargo, cuando se trata de las estimaciones de los parámetros, mi cerebro sigue queriendo interpretarlos puramente como el cambio predicho en el resultado entre grupos (tipos de roca), y no entiendo cómo incorporar el hecho de que se ajustan como proporciones.

Si el $\beta$ estimación para metamórfico fueran, digamos, 0,43, la interpretación no es simplemente que el nivel medio de radón previsto aumenta en 0,43 unidades cuando la roca es metamórfica frente a sedimentaria. Sin embargo, la interpretación tampoco es simplemente que haya algún tipo de aumento unitario (digamos 0,1) en la proporción del tipo de roca metamórfica, porque esto no refleja el hecho de que también es relativo a la línea de base ( sedimentario ), y, además, que cambiar la proporción de metamórfico cambia intrínsecamente la proporción del ajuste del otro nivel de roca en el modelo, ígneo .

¿Alguien tiene una fuente que proporcione la interpretación de dicho modelo, o podría proporcionar aquí un breve ejemplo en caso contrario?

10voto

Ely Puntos 1463

Como seguimiento y lo que creo que es la respuesta correcta (me parece razonable): Publiqué esta pregunta en el listserv ASA Connect, y obtuve la siguiente respuesta de Thomas Sexton de Stony Brook:

"Tu modelo de regresión lineal estimado tiene el siguiente aspecto:

ln(Radon) = (expresión lineal en otras variables) + 0,43M + 0,92I

donde M e I representan los porcentajes de rocas metamórficas e ígneas, respectivamente, en el código postal. Está limitado por:

M + I + S = 100

donde S representa los porcentajes de roca sedimentaria en el código postal.

La interpretación del 0,43 es que un aumento de un punto porcentual en M se asocia con un aumento de 0,43 en ln(Radon) manteniendo fijas todas las demás variables del modelo . Por lo tanto, el valor de I no puede cambiar, y la única manera de tener un aumento de un punto porcentual en M mientras se satisface la restricción es tener una disminución de un punto porcentual en S, la categoría omitida.

Por supuesto, este cambio no puede producirse en los códigos postales en los que S = 0, pero una disminución de M y un aumento correspondiente de S sería posible en tales códigos postales."

Aquí está el enlace al hilo ASA: http://community.amstat.org/communities/community-home/digestviewer/viewthread?GroupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8b-ae4f-43f9-b561-4427476d3ddf&sKey=bf9cef9062314b07a5f2#bm13

Publico esto como la respuesta correcta aceptada, pero sigo abierto a más discusiones si alguien tiene algo que añadir.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X