12 votos

Cómo de grande debe una muestra de una determinada técnica de estimación de los parámetros y de?

Existe una regla de pulgar o incluso ninguna manera de saber qué tan grande sea la muestra debe ser con el fin de estimar un modelo con un número determinado de parámetros?

Así, por ejemplo, si yo quiero estimar una regresión de mínimos cuadrados con 5 parámetros, ¿qué tan grande debe la muestra?

Qué importa técnica de estimación que utiliza (por ejemplo, de máxima verosimilitud, de los mínimos cuadrados, GMM), o cuántos o qué pruebas se van a realizar? Si el ejemplo de la variabilidad de tenerse en cuenta a la hora de tomar la decisión?

11voto

doekman Puntos 5187

Siempre debe ser lo suficientemente grande! ;)

Todas las estimaciones de los parámetros vienen con una estimación de la incertidumbre, el cual es determinado por el tamaño de la muestra. Si lleva a cabo un análisis de regresión, es útil recordar que la Χ2 distribución se construye a partir del conjunto de datos de entrada. Si su modelo tiene 5 parámetros y tenía 5 puntos de datos, que sólo sería capaz de calcular un solo punto de la Χ2 distribución. Puesto que usted necesitará para minimizar, sólo se podía elegir ese punto como una conjetura por la mínima, pero tendría que asignar infinito errores a la estimación de los parámetros. Tener más puntos de datos le permitirá asignar el espacio de parámetros que mejor conduce a una mejor estimación de los mínimos de la Χ2 distribución y por lo tanto menor estimador de errores.

Te gustaría ser el uso de un estimador de Máxima Verosimilitud lugar, la situación sería similar: Más puntos de datos conduce a una mejor estimación de los mínimos.

Como para el punto de varianza, se necesitaría un modelo de esto también. Tener más puntos de datos haría la agrupación de puntos de todo el "verdadero" valor de más obvia (por el Teorema del Límite Central) y el peligro de la interpretación de una gran oportunidad flucuation como el auténtico valor de ese punto iba a bajar. Y como para cualquier otro parámetro de su cálculo para el punto de la varianza sería más estable, más puntos de datos que se tienen.

11voto

PhilPursglove Puntos 257

La respuesta es trivial que más datos estén siempre preferido a menos de datos.

El problema del pequeño tamaño de la muestra es clara. En la regresión lineal (OLS) técnicamente se puede ajustar a un modelo como OLS donde n = k+1, pero usted va a obtener la basura de salir de ella, es decir, muy grandes errores estándar. Hay un gran papel por Arthur Goldberger llamado Micronumerocity en este tema, los cuales se resumen en el capítulo 23 de su libro Un Curso de Econometría.

Un común heurística es que usted debe tener 20 observaciones para cada parámetro a estimar. Siempre es un trade-off entre el tamaño de sus errores estándar (y, por tanto, pruebas de significación) y el tamaño de su muestra. Esta es una razón por la que algunos de nosotros el odio pruebas de significación como usted puede conseguir un muy pequeñas, la (relativa) error estándar con una enorme muestra y, por tanto, encontrar sentido a la significación estadística en la ingenuidad de pruebas tales como si el coeficiente de regresión es cero.

Mientras que el tamaño de la muestra es importante la calidad de la muestra es más importante, por ejemplo, si la muestra es generalizable a la población, es una Muestra Aleatoria Simple o alguna otra metodología de muestreo (y que han sido tomados en cuenta durante el análisis), existe el error de medición, el sesgo de respuesta, el sesgo de selección, etc.

1voto

BBlake Puntos 310

He escuchado las dos reglas de oro en este sentido. Uno tiene que siempre que hay una cantidad suficiente de observaciones en el término de error para evocar el teorema central del límite, por ejemplo, 20 o 30, que están muy bien. La otra sostiene que para cada estimado de la pendiente de que uno debe tener al menos 20 o 30 observaciones. La diferencia entre el uso de 20 o 30 como el número de destino se basa en los diferentes pensamientos que se refiere a cuando hay una cantidad suficiente de observaciones, razonablemente, evocan el Teorema del Límite Central.

0voto

gyurisc Puntos 4250

Me gusta el uso de remuestreo: repito, cualquiera que sea el método que he usado con una submuestra de los datos (por ejemplo el 80% o incluso el 50% del total). Haciendo esto con muchos diferentes submuestras, puedo conseguir una sensación para el grado de robustez de las estimaciones. Para muchos procedimientos de estimación esto puede ser hecho en un real (lo que significa que se puede publicar) estimación de sus errores.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X