87 votos

Reglas generales sobre el tamaño mínimo de la muestra para la regresión múltiple

En el contexto de una propuesta de investigación en ciencias sociales, se me planteó la siguiente pregunta:

Siempre he ido por 100 + m (donde m es el número de predictores) cuando determinar el tamaño mínimo de la muestra para regresión múltiple. ¿Es esto apropiado?

Recibo muchas preguntas similares, a menudo con diferentes reglas empíricas. También he leído muchas veces esas reglas empíricas en varios libros de texto. A veces me pregunto si la popularidad de una regla en términos de citas se basa en lo baja que es la norma. Sin embargo, también soy consciente del valor de una buena heurística para simplificar la toma de decisiones.

Preguntas:

  • ¿Cuál es la utilidad de las reglas empíricas simples sobre el tamaño mínimo de las muestras en el contexto de los investigadores aplicados que diseñan estudios de investigación?
  • ¿Podría sugerir una regla general alternativa para el tamaño mínimo de la muestra para la regresión múltiple?
  • Alternativamente, ¿qué estrategias alternativas sugeriría para determinar el tamaño mínimo de la muestra para la regresión múltiple? En particular, sería bueno que se asignara un valor al grado en que cualquier estrategia puede ser aplicada fácilmente por un no estadístico.

4voto

bdonlan Puntos 508

Estoy de acuerdo en que las calculadoras de potencia son útiles, sobre todo para ver el efecto de diferentes factores en la potencia. En ese sentido, las calculadoras que incluyen más información de entrada son mucho mejores. Para la regresión lineal, me gusta la calculadora de regresión aquí que incluye factores como el error en las X, la correlación entre las X, etc.

1voto

He encontrado este documento bastante reciente (2015) en el que se evalúa que apenas 2 observaciones por variable son suficientes, siempre y cuando nuestro interés esté en la precisión de los coeficientes de regresión y los errores estándar estimados (y en la cobertura empírica de los intervalos de confianza resultantes) y utilicemos el ajustado $R^2$ :

( pdf )

Por supuesto, como también se reconoce en el documento, la imparcialidad (relativa) no implica necesariamente tener suficiente poder estadístico. Sin embargo, los cálculos de la potencia y el tamaño de la muestra suelen realizarse especificando los efectos esperados; en el caso de la regresión múltiple, esto implica que debe formularse una hipótesis sobre el valor de los coeficientes de regresión o sobre la matriz de correlación entre los regresores y el resultado. En la práctica, depende de la fuerza de la correlación de los regresores con el resultado y entre ellos mismos (obviamente, cuanto más fuerte sea la correlación con el resultado, mejor, mientras que las cosas empeoran con la multicolinealidad). Por ejemplo, en el caso extremo de dos variables perfectamente colineales, no se puede realizar la regresión independientemente del número de observaciones, e incluso con sólo 2 covariables.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X