45 votos

¿Deben mantenerse las covariables que no son estadísticamente significativas al crear un modelo?

Tengo varias covariables en mi cálculo para un modelo, y no todas son estadísticamente significativas. ¿Debo eliminar las que no lo son?

Esta pregunta discute el fenómeno, pero no responde a mi pregunta: ¿Cómo interpretar el efecto no significativo de una covariable en el ANCOVA?

Sin embargo, no hay nada en la respuesta a esa pregunta que sugiera que se eliminen las covariables no significativas, por lo que ahora mismo me inclino a creer que deben permanecer. Antes incluso de leer esa respuesta, pensaba lo mismo, ya que una covariable puede seguir explicando parte de la varianza (y, por tanto, ayudar al modelo) sin explicar necesariamente una cantidad más allá de algún umbral (el umbral de significación, que veo que no es aplicable a las covariables).

Hay otra pregunta en algún lugar de CV para la que la respuesta parece implicar que las covariables deben mantenerse independientemente de la significación, pero no está claro. (Quiero enlazar con esa pregunta, pero no he podido volver a localizarla ahora mismo).

Entonces... ¿Las covariables que no aparecen como estadísticamente significativas deben mantenerse en el cálculo del modelo? (He editado esta pregunta para aclarar que las covariables nunca están en la salida del modelo por el cálculo de todos modos).

Para añadir una complicación, ¿qué pasa si las covariables son estadísticamente significativas para algunos subconjuntos de los datos (subconjuntos que deben procesarse por separado). Yo mantendría por defecto dicha covariable, ya que de lo contrario habría que utilizar modelos diferentes o faltaría una covariable estadísticamente significativa en uno de los casos. Sin embargo, si también tiene una respuesta para este caso dividido, por favor menciónela.

39voto

Zizzencs Puntos 1358

Ya has obtenido varias respuestas buenas. Hay razones para mantener las covariables y razones para eliminarlas. La importancia estadística no debería ser un factor clave, en la gran mayoría de los casos.

  1. Las covariables pueden ser de tal importancia sustantiva que tienen que estar ahí.
  2. El tamaño del efecto de una covariable puede ser alto, aunque no sea significativo.
  3. La covariable puede afectar a otros aspectos del modelo.
  4. La covariable puede ser una parte de cómo se redactó su hipótesis.

Si estás en un modo muy exploratorio y la covariable no es importante en la literatura y el tamaño del efecto es pequeño y la covariable tiene poco efecto en su modelo y la covariable no estaba en su hipótesis, entonces probablemente podría eliminarla sólo por simplicidad.

30voto

dan90266 Puntos 609

La respuesta larga es "sí". Hay pocas razones para eliminar los predictores insignificantes y muchas razones para no hacerlo. En cuanto a la interpretación de los mismos, se hace ignorando el $P$ -valor al igual que podría interpretar otros predictores: con intervalos de confianza para los efectos sobre rangos interesantes del predictor.

10voto

Jared Farrish Puntos 120

Una idea útil es que, en realidad, no hay nada específico en una covariable desde el punto de vista estadístico; véase, por ejemplo, la Ayuda para escribir las covariables en la fórmula de regresión . Por cierto, podría explicar por qué no hay covariate etiqueta. En consecuencia, el material aquí y en otros lugares sobre los términos no significativos en un modelo lineal son relevantes, al igual que las conocidas críticas de la regresión por pasos, incluso si ANCOVA no se menciona explícitamente.

En general, es una mala idea seleccionar predictores basándose únicamente en la importancia. Si por alguna razón no puede especificar el modelo de antemano, debería considerar otros enfoques, pero si planeó incluirlos en primer lugar, recopiló datos en consecuencia y no se enfrenta a problemas específicos (por ejemplo, colinealidad), simplemente manténgalos.

En cuanto a las razones para mantenerlas, las objeciones que has planteado me parecen sólidas. Otra razón sería que eliminar los predictores no significativos sesga las inferencias basadas en el modelo. Otra forma de ver todo esto es preguntarse qué se ganaría eliminando estas covariables a posteriori.

6voto

ogc-nick Puntos 120

Para responder a esta pregunta necesitamos más información sobre sus objetivos. Las regresiones se utilizan con dos fines principales:

  1. Predicción
  2. Inferencia

La predicción es cuando su objetivo es poder adivinar los valores de la variable de resultado para las observaciones que no están en la muestra (aunque normalmente están dentro del rango de los datos de la muestra; de lo contrario, a veces utilizamos la palabra "previsión"). La predicción es útil para fines publicitarios, financieros, etc. Si sólo le interesa predecir alguna variable de resultado, no tengo mucho que ofrecerle.

La inferencia es donde está la diversión (aunque no sea donde está el dinero). La inferencia es cuando se intenta sacar conclusiones sobre parámetros específicos del modelo, normalmente para determinar el efecto causal de una variable sobre otra. A pesar de la percepción común, el análisis de regresión nunca es suficiente para la inferencia causal. Siempre hay que saber más sobre el proceso de generación de datos para saber si la regresión capta el efecto causal. La cuestión clave para la inferencia causal a partir de regresiones es si la media condicional del error (condicionada a los regresores) es cero. Esto no puede saberse a partir de los valores p de los regresores. Es posible tener estimadores de regresión que sean insesgados o consistentes, pero eso requiere mucho más esfuerzo que simplemente lanzar algunos controles obvios en la regresión y esperar obtener los importantes. La mejor cobertura que he visto de la aproximación a la inferencia causal con datos observacionales está en dos libros de Angrist y Pischke ( Dominio de las "métricas": El camino de la causa al efecto y Econometría más bien inofensiva ). Dominio de las métricas es la lectura más fácil y es bastante barata, pero hay que advertir que no es un tratamiento de cómo hacer regresiones sino de lo que significan. Para una buena cobertura de ejemplos de buenos y malos diseños de investigación observacional, recomiendo el libro de David Freedman (1991) "Statistical Models and Shoe Leather", Metodología sociológica volumen 21 (una lectura corta y fácil con ejemplos fascinantes).

Por otra parte, la obsesión por la técnica estadística en lugar de un buen diseño de investigación en la mayoría de los cursos universitarios es una de mis preocupaciones pedagógicas.

Segundo apartado para motivar la importancia actual de este tema: la diferencia entre predicción e inferencia es la razón por la que los big data no son un sustituto de la ciencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X