4 votos

Pruebas de los coeficientes de regresión antes o después de la selección del modelo

Tengo un conjunto de datos que contiene 4 predictores (condiciones ambientales y tamaño del animal) y una variable predicha (tasa de crecimiento del animal). Quiero ajustar un modelo de regresión a estos datos. Tengo dos objetivos:

  1. Comprobar la importancia y las interacciones entre los predictores. Lo que más me interesa son las interacciones entre el tamaño y otros predictores, ya que tengo alguna pista de que el animal debe cambiar sus reacciones a los factores ambientales a medida que crece. Pero otras interacciones también pueden ser interesantes y no estoy seguro de si puedo (o debo) eliminar algunas interacciones del modelo. Quiero probarlo utilizando la prueba t para los coeficientes (calculada automáticamente en R con el ajuste del modelo).

  2. Seleccione el mejor modelo para las predicciones futuras. Para ello quiero utilizar el criterio AIC o BIC para todos los posibles submodelos, ya que el número de combinaciones no es tan grande.

La pregunta es:

¿Debo realizar la prueba t después o antes de la selección del modelo? Los dos objetivos mencionados son más o menos independientes, ya que el primero es sólo una visión teórica y el segundo es más práctico. Esto sugiere que debería realizar la prueba t en el modelo completo y la selección del modelo después. Pero no estoy seguro.

1voto

ypsu Puntos 231

Su primer objetivo tiene que ver con la percepción/interpretación y el segundo con la previsibilidad/precisión. Por lo general, estos dos objetivos no van de la mano, especialmente cuando hay muchas variables. En la práctica, hay que crear modelos sencillos para la interpretación (aunque pueden ser generales y simplistas) y modelos más complejos para las predicciones.

En su caso, le sugeriría que realizara primero varios modelos de regresión simples. 1) Una variable predictora a la vez le mostrará la importancia que tienen (individualmente) y si tienen un efecto positivo o negativo. 2) Dos predictores más la interacción a la vez le permitirán investigar las interacciones de interés.

A continuación, utiliza todas sus variables (más las interacciones; todas o las seleccionadas) y se centra en la predicción.

Te animo a que pruebes también algunos árboles de regresión y compares los resultados. Los modelos de árbol son excelentes para detectar interacciones (automáticamente). No te darán coeficientes para interpretar, pero te darán una especie de agrupación de variables en términos de predicción de tu variable dependiente.

1voto

Richard Hardy Puntos 6099

Comprobación de la significación de las variables mediante el $t$ -la prueba puede realizarse e interpretarse de la forma habitual si la especificación del modelo se da de antemano . Si usted ha especificado su modelo (o alguien lo ha hecho por usted) antes de mirar los datos, el $t$ -las estadísticas tendrán la distribución que se supone que tienen, y las pruebas de significación estarán bien.

Mientras tanto, si la especificación del modelo se determina primero a partir de los datos y la prueba de significación se realiza posteriormente, esto cambiará la forma $t$ -deben interpretarse las estadísticas. Si primero se observan los datos y se seleccionan los regresores en función de sus valores muestrales, las pruebas de significación que se realicen posteriormente podrían interpretarse de la forma habitual pero condicionado al modelo que haya seleccionado . Sin embargo, normalmente no interesado en la significación de las variables condicionado al modelo sino en incondicional significación de la variable. Por lo tanto, en este caso tiene usted problemas.

En la práctica, puede ser difícil seleccionar un modelo incluso antes de ver los datos; eso también implica que a menudo no podrá confiar realmente en el $t$ -estadística (a menos que haya seleccionado honestamente el modelo primero y sólo entonces lo haya estimado utilizando los datos).

En cuanto a la previsión, tiene poco que ver con las pruebas de significación y puede tratarse como una cuestión aparte. En cierto sentido, se puede hacer independientemente de las pruebas de significación. Utilizar el AIC en todos los submodelos posibles puede estar bien si el número de submodelos posibles no es demasiado grande. La combinación de previsiones de diferentes modelos también podría ser una opción, véase, por ejemplo, Burnham & Anderson "Selección de modelos e inferencia multimodelo" .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X