Supongamos que se tiene una serie de N ( N>100 ) puntos de datos muestreados de una población con distribución desconocida. μ la media de la población, y σ2 la varianza de la población, son ambos desconocidos.
Me gustaría encontrar el intervalo D en torno a la media de la muestra m , de tal manera que P(m−D<μ<m+D)=x . En otras palabras, la probabilidad de que μ se encuentra a poca distancia D de m es x .
Como no conozco la verdadera varianza poblacional, sólo tengo una estimación de la misma a través de la varianza muestral, que llamo s2 . Esto significa que sólo tengo una estimación del error estándar s/√N .
Esto significaría que habría que utilizar la distribución t de Student para determinar D . Sin embargo, la Wikipedia tiene el siguiente comentario:
Nota: La distribución de probabilidad de Student se aproxima bien a la distribución de Gauss cuando el tamaño de la muestra es superior a 100. Para tales muestras se puede utilizar esta última distribución, que es mucho más sencilla.
¿Significa esto que en mi caso de uso, puedo asumir efectivamente que s2 es una excelente aproximación a σ2 y así proceder con los pasos que uno usaría si supiera σ2 para determinar el intervalo de confianza?