12 votos

Número mínimo de observaciones para la regresión lineal múltiple

Estoy haciendo regresión lineal múltiple. Tengo 21 observaciones y 5 variables. Mi objetivo es simplemente encontrar la relación entre las variables

  1. ¿Mi conjunto de datos es suficiente para hacer regresión múltiple?
  2. El resultado de la prueba t reveló que 3 de mis variables no son significativas. ¿Necesito hacer mi regresión nuevamente con las variables significativas (o es suficiente mi primera regresión para obtener una conclusión)? Mi matriz de correlación es la siguiente

           var 1   var 2    var 3   var 4   var 5     Y
    var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
    var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
    var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
    var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
    var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
    Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0

var 1 y var 2 son variables continuas y var 3 a la 5 son variables categóricas y y es mi variable dependiente.

Debe mencionarse que la variable importante considerada en la literatura como el factor más influyente en mi variable dependiente tampoco está entre mis variables de regresión debido a la limitación de mis datos. ¿Tiene sentido hacer la regresión sin esta variable importante?

aquí está mi intervalo de confianza

    Variables   Coeficiente de Regresión  Límite inferior 95%  Límite superior 95%
    Intercepto   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**

0 votos

El mínimo de observaciones para la regresión lineal múltiple es de 30,10 para cada parámetro N, si tienes N=3,........

24voto

Ben Bolker Puntos 8729

La regla general (basada en información del libro de Frank Harrell, Estrategias de Modelado de Regresión) es que si esperas poder detectar efectos de tamaño razonable con poder razonable, necesitas 10-20 observaciones por parámetro (covariable) estimado. Harrell discute muchas opciones para la "reducción de dimensiones" (reducir el número de covariables a un tamaño más razonable), como PCA, pero lo más importante es que para tener confianza en los resultados la reducción de dimensiones debe hacerse sin mirar la variable de respuesta. Volver a hacer la regresión solo con las variables significativas, como sugieres arriba, es en casi todos los casos una mala idea.

Sin embargo, dado que estás atrapado con un conjunto de datos y un conjunto de covariables en los que estás interesado, no creo que correr la regresión múltiple de esta manera sea inherentemente incorrecto. Creo que lo mejor sería aceptar los resultados tal como son, del modelo completo (no olvides mirar las estimaciones de los puntos y los intervalos de confianza para ver si los efectos significativos se estiman como "grandes" en algún sentido del mundo real, y si los efectos no significativos realmente se estiman como más pequeños que los efectos significativos o no).

En cuanto a si tiene sentido hacer un análisis sin el predictor que tu campo considera importante: no lo sé. Depende de qué tipo de inferencias quieras hacer basadas en el modelo. En un sentido estrecho, el modelo de regresión sigue estando bien definido ("¿cuáles son los efectos marginales de estos predictores en esta respuesta?"), pero alguien en tu campo podría decir con razón que el análisis simplemente no tiene sentido. Ayudaría un poco si supieras que los predictores que tienes no están correlacionados con el predictor bien conocido (sea cual sea), o que el predictor bien conocido es constante o casi constante para tus datos: entonces al menos podrías decir que algo distinto al predictor bien conocido tiene un efecto en la respuesta.

0 votos

Gracias por el comentario, pero no entiendo cuál es el punto de comprobar el intervalo de confianza.

1 votos

Ya que Ben respondió por Frank, yo responderé por Ben y él puede corregirme si tenía algo más en mente. Ben sugiere utilizar simplemente el modelo completo. Entonces al menos sabes que no has dejado una variable importante fuera del conjunto de 5. El problema del sobreajuste podría perjudicar la predicción, pero al menos tienes intervalos de confianza para los parámetros y puedes obtener intervalos de confianza para la predicción. Creo que esto funcionará bien si tienes un problema de colinealidad y los intervalos de confianza de los parámetros te permiten saber si el valor del parámetro podría ser 0.

0 votos

Si el modelo aún falta variables importantes, la predicción puede no ser buena y la evaluación de la precisión de la predicción basada en los datos dados puede ser incorrecta. Preocúpate por el error en la especificación del modelo y siempre revisa los residuos. Frank Harrell es un miembro activo de este sitio. Así que espero que esta pregunta llame su atención y luego podamos escuchar directamente de él.

3voto

mat_geek Puntos 1367

La respuesta a la pregunta general es que depende de muchos factores, siendo los principales (1) número de covariables (2) varianza de las estimaciones y residuos. Con una muestra pequeña, no tienes mucha potencia para detectar una diferencia de 0. Por lo tanto, deberías mirar la varianza estimada de los parámetros de regresión. Según mi experiencia con la regresión, 21 observaciones con 5 variables no son suficientes datos para descartar variables. Por lo tanto, no deberías ser tan rápido para descartar variables ni enamorarte demasiado de las que parecen significativas. La mejor respuesta es esperar hasta tener muchos más datos. A veces es fácil decirlo pero difícil de hacer. Deberías mirar la regresión paso a paso, hacia adelante y hacia atrás solo para ver qué variables se seleccionan. Si las covariables están altamente correlacionadas, esto puede mostrar conjuntos de variables muy diferentes siendo seleccionados. Haz un bootstrap del procedimiento de selección de modelos, ya que será revelador en cuanto a la sensibilidad de la selección de variables a cambios en los datos. Deberías calcular la matriz de correlación para las covariables. Tal vez Frank Harrell opine sobre esto. Es un verdadero experto en la selección de variables. Creo que al menos estará de acuerdo conmigo en que no deberías elegir un modelo final basado únicamente en estos 21 puntos de datos.

0 votos

Gracias por tu sugerencia. He añadido mi matriz de correlación. ¿Crees que con esta matriz de correlación hacer regresión es razonable? Solo enfatizo que no puedo recopilar más datos y tampoco quiero modelar o predecir. Solo quiero encontrar cualquier relación posible entre las variables independientes y la variable dependiente.

0 votos

La matriz de correlación está ahí para darte una idea de la colinealidad. Es probable que las estimaciones tengan una gran varianza, por lo que la significación estadística no debería ser el enfoque. Podrías revisar los diagnósticos de regresión para la colinealidad. Eso podría ayudar. Pero recomendaría mirar una variedad de modelos de subconjuntos para ver cómo cambia el ajuste y qué combinaciones de variables parecen funcionar bien y mal. Realmente creo que hacer un bootstrap a los datos te mostrará algo sobre la estabilidad de la elección de predictores.

1 votos

Pero nada compensará la falta de datos. Creo que solo quieres ver si hay una o dos variables que parezcan destacar por encima de las demás. Pero es posible que no encuentres nada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X