53 votos

¿Qué referencias se deben citar para respaldar el uso de 30 como un tamaño de muestra lo suficientemente grande?

He leído/escuchado muchas veces que el tamaño de la muestra de al menos 30 unidades se considera como una "muestra grande" (las suposiciones de normalidad de las medias generalmente se mantienen aproximadamente debido al TCL, ...). Por lo tanto, en mis experimentos, generalmente genero muestras de 30 unidades. ¿Puede usted por favor darme alguna referencia que deba ser citada al utilizar un tamaño de muestra de 30?

4 votos

Sin referencia al número de parámetros que intenta estimar, o equivalentemente al tipo de modelo con el que está trabajando, parece bastante difícil darle una respuesta clara.

8 votos

La aceptación de n=30 como límite entre muestras pequeñas y grandes no está bien respaldada por ninguna técnica estadística.

3 votos

Una referencia que puede citar ahora (a partir de 2013) para demostrar que 30 unidades no necesariamente son suficientes, y demostrando que no puede haber una referencia correcta que respalde su afirmación, aparece aquí en CV en stats.stackexchange.com/questions/69898.

53voto

alexp206 Puntos 899

En realidad, el "número mágico" 30 es una falacia. Vea el encantador papel de Jacob Cohen, Things I Have Learned (So Far) (Am. Psych. diciembre de 1990 45 #12, pp 1304-1312). Este mito es su primer ejemplo de cómo "algunas cosas que aprendes no lo son tanto".

Uno de mis compañeros candidatos doctorales emprendió una disertación con una muestra de solo 20 casos por grupo. ... Más tarde descubrí ... que para una comparación de medias de dos grupos independientes con $n = 30$ por grupo en el nivel de significancia bidireccional de $.05$, la probabilidad de que un efecto de tamaño mediano fuera etiquetado como significativo por ... una prueba de t era solo $.47$. Por lo tanto, era aproximadamente como lanzar una moneda si se obtendría un resultado significativo, a pesar de que, en realidad, el tamaño del efecto era significativo. ... [Mi amigo] terminó con resultados no significativos, con los cuales procedió a demoler una rama importante de la teoría psicoanalítica.

5 votos

Hermosa referencia - y muy relevante. Gracias.

2 votos

@whuber ¿Recuerdas de qué artículo se trataba? El enlace está roto en este momento. Tal vez sea este psych.colorado.edu/~willcutt/pdfs/Cohen_1990.pdf, "Cosas que he aprendido (hasta ahora)"? El año coincide con el de la URL del enlace roto.

2 votos

@Amoeba Guardé este documento cuando lo leí, por lo que puedo confirmar que lo encontrado es el correcto. He actualizado esta respuesta para incluir una cita junto con tu enlace.

46voto

jerhinesmith Puntos 5425

La elección de n = 30 como límite entre muestras pequeñas y grandes es solo una regla general. Hay una gran cantidad de libros que citan (alrededor de) este valor, por ejemplo, Hogg y Tanis en Probabilidad e Inferencia Estadística (7a edición) dicen "mayor que 25 o 30".

Dicho esto, la historia que me contaron fue que la única razón por la que se consideraba que 30 era un buen límite era porque hacía que las bonitas tablas de Student de t en la parte posterior de los libros encajaran perfectamente en una página. Además, los valores críticos (entre t de Student y Normal) solo difieren aproximadamente hasta 0.25, de df = 30 a df = infinito. Para el cálculo manual, la diferencia realmente no importaba.

Hoy en día es fácil calcular valores críticos con precisión hasta 15 decimales. Además, tenemos métodos de remuestreo y permutación para los cuales ni siquiera estamos limitados a distribuciones poblacionales paramétricas.

En la práctica, nunca confío en n = 30. Grafica los datos. Superpone una distribución normal, si lo deseas. Evalúa visualmente si es adecuada una aproximación normal (y pregúntate si realmente se necesita una aproximación). Si estás generando muestras para investigación y se requiere una aproximación, genera un tamaño de muestra suficiente para que la aproximación sea tan cercana como se desee (o tan cercana como sea factible computacionalmente).

17 votos

Aquí tienes una página sobre exactamente lo buena que es la aproximación normal de la distribución t para n=30. johndcook.com/normal_approx_to_t.html

10voto

Patrick Puntos 183

Regla general mayormente arbitraria. Esta afirmación depende de una serie de factores para ser cierta. Por ejemplo, en la distribución de los datos. Si los datos provienen de una Cauchy, por ejemplo, incluso 30^30 observaciones no son suficientes para estimar la media (en ese caso, ni siquiera un número infinito de observaciones sería suficiente para que $\bar{\mu}^{(n)}$ converja). Este número (30) también es falso si los valores que extraes no son independientes entre sí (nuevamente, puede suceder que no haya convergencia en absoluto, independientemente del tamaño de la muestra).

Más generalmente, el TCL básicamente necesita dos pilares para sostenerse:

  1. Que las variables aleatorias sean independientes: que puedas reordenar tus observaciones sin perder información*.
  2. Que las r.v. provengan de una distribución con momentos de segundo orden finitos: lo que significa que los estimadores clásicos de la media y la desviación estándar tienden a converger a medida que aumenta el tamaño de la muestra.

(Ambas condiciones pueden debilitarse en cierta medida, pero las diferencias son principalmente de naturaleza teórica)

8 votos

Tu ejemplo ilustra el valor de la estadística robusta. La mediana de la muestra estima bien el parámetro de ubicación de una distribución de Cauchy. Se podría argumentar que el eslabón más débil al usar una prueba t con 30 muestras es la prueba t, no las 30 muestras.

3 votos

John:> "Uno podría argumentar que el eslabón más débil al usar una prueba t con 30 muestras es la prueba t, no las 30 muestras". Muy cierto, y también la suposición de que los datos son iid. Además, la mediana es MLE para variables aleatorias distribuidas de forma Cauchy (y, por lo tanto, eficiente), pero en general podrías necesitar más de 30 observaciones.

3 votos

No todas las versiones del TCL dependen de tener distribuciones idénticas, ni siquiera de independencia. Las versiones básicas enseñadas a los estudiantes a menudo lo hacen, pero hay versiones que no hacen ambas suposiciones, por ejemplo, el TCL de Lyapunov asume independencia pero no distribuciones idénticas, y la condición de independencia también puede relajarse, por ejemplo ver aquí. Esa cosa de 'reordenamiento' tampoco es lo mismo que independencia. Algunas formas de dependencia no dependen del orden.

8voto

sgwill Puntos 2444

En mi opinión, todo depende de para qué quieras usar tu muestra. Dos ejemplos "tontos" para ilustrar lo que quiero decir: Si necesitas estimar una media, 30 observaciones son más que suficientes. Si necesitas estimar una regresión lineal con 100 predictores, 30 observaciones no serán ni de cerca suficientes.

3voto

Indio Puntos 1

Esto está destinado a complementar la respuesta del usuario1108 que dice que:

Dicho esto, la historia que me contaron fue que la única razón por la que se consideraba a 30 como un buen límite era porque permitía que las tablas de la t de Student en la parte trasera de los libros de texto encajaran perfectamente en una página. Además, los valores críticos (entre la t de Student y la Normal) solo difieren aproximadamente hasta 0.25, de todos modos, desde df = 30 a df = infinito. Para cálculos a mano, la diferencia realmente no importaba.

Investigué un poco sobre este problema y la fuente más temprana que puedo encontrar es el libro de Fisher Métodos Estadísticos para los Investigadores en Ciencias Sociales (1925). Recuerdo que examiné una copia de este texto (puedes ver http://psychclassics.yorku.ca/Fisher/Methods/, por ejemplo) y noté que la siguiente tabla encajaba perfectamente en una página.

enter image description here

Según lo que recuerdo de la lectura del texto, no hay ninguna justificación por qué Fisher decidió detenerse en $n = 30$. Hasta donde sé, la única justificación para esto es que esas tablas encajaban perfectamente en una página en aquel entonces.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X