En lugar de entrar en matemáticas, intentaré explicarlo en palabras sencillas. Si tienes toda la población a tu disposición, entonces su varianza (varianza de la población) se calcula con el denominador N
. De la misma manera, si solo tienes una muestra y quieres calcular la varianza de la muestra, utilizas el denominador N
(n de la muestra, en este caso). En ambos casos, ten en cuenta, no estás estimando nada: la media que has medido es la verdadera media y la varianza que has calculado a partir de esa media es la verdadera varianza.
Ahora, solo tienes una muestra y quieres inferir acerca de la media y la varianza desconocidas en la población. En otras palabras, quieres estimar. Utilizas tu media de la muestra para estimar la media de la población (porque tu muestra es representativa), ¿vale? Para obtener la estimación de la varianza de la población, debes fingir que esa media es realmente la media de la población y, por lo tanto, ya no depende de tu muestra desde que la calculaste. Para "demostrar" que ahora la consideras fija, reservas una (cualquiera) observación de tu muestra para "respaldar" el valor de la media: pase lo que pase en tu muestra, una observación reservada siempre podría llevar la media al valor que has obtenido y en el que crees que es insensible a las contingencias de muestreo. Una observación reservada es "-1" y por lo tanto tienes N-1
al calcular la estimación de la varianza. La estimación imparcial se llama varianza de la muestra (que no debe confundirse con la varianza de la muestra), que es un argot; es mejor llamarla por lo que es: estimación imparcial de la varianza poblacional estimada con la media de la muestra.
[Pegando aquí desde mis comentarios a continuación: Imagina que estás tomando muestras repetidas de tamaño N=3
. De los 3 valores en una muestra, solo 2 valores expresan la variación aleatoria de las observaciones respecto a la media de la población, pero el tercero expresa (asume) el desplazamiento de la media de la muestra de la media de la población. Por lo tanto, el grado de libre variabilidad observacional es de 2 de los 3, en cada muestra separada. Cuando estimamos la variabilidad en una muestra pero queremos que sea una estimación imparcial (sin desplazamientos) de la variabilidad poblacional, "creemos" solo en esas 2 observaciones libres. "Pagamos" por la decisión de medir la variabilidad a partir de la media de la muestra como si fuera la media poblacional, ya que necesitamos inferir sobre la variabilidad de la población. Esta "tarifa" (denominador N-1
, la corrección de Bessel) amplía la variabilidad, incorporando la oscilación de las medias de la muestra dentro de la varianza, pero hace que esa varianza sea un estimador imparcial.]
Pero imagina ahora que de alguna manera conoces la verdadera media de la población, pero quieres estimar la varianza a partir de la muestra. Entonces, sustituirás esa verdadera media en la fórmula de la varianza y aplicarás el denominador N
: aquí no se necesita un "-1" ya que sabes la verdadera media, no la estimaste a partir de esta muestra.
6 votos
Puedes encontrar una respuesta aquí: stats.stackexchange.com/questions/16008/…. Básicamente, debes usar N-1 cuando estimas una varianza, y N cuando la calculas exactamente.
0 votos
@ocram, hasta donde sé, cuando estimamos una varianza utilizamos ya sea n o n-1.
0 votos
Si deseas que tu estimador sea imparcial, entonces debes usar n-1. Ten en cuenta que cuando n es grande, esto no es un problema.
2 votos
Ninguna de las respuestas a continuación está escrita en términos de inferencia de poblaciones finitas. La palabra finite es absolutamente crucial aquí; de eso trata el libro de Kish (y quienquiera que estuviera diciendo "El libro está equivocado" simplemente no sabe lo suficiente sobre encuestas y muestras de poblaciones finitas). El cociente $N-1$ en lugar de $N$ solo hace que los cálculos sean más agradables y evita la necesidad de llevar factores como $1-1/N. La respuesta completa a esta pregunta tendría que introducir la inferencia de muestreo donde los indicadores de muestra son aleatorios, y los valores de las características observadas $y$ están FIJOS. No aleatorios. Establecidos de antemano.
0 votos
Podrías tener una mejor sensación sobre esta pregunta al jugar con octave o matlab... Ejemplo: x = rand(10,1); var1 = sum((x - mean(x)).^2) / (length(x)); var2 = sum((x - mean(x)).^2) / (length(x)-1); verificarás una diferencia significativa entre
var1
yvar2
, dado que tu tamaño de muestra es muy pequeño. Repítelo considerando un tamaño de población más grande. x = rand(1e6,1); var1 = sum((x - mean(x)).^2) / (length(x)); var2 = sum((x - mean(x)).^2) / (length(x)-1); verificarás quevar1
$\approx$var2
2 votos
Esto realmente no añade a las otras respuestas. Que diferentes divisores den diferentes respuestas, o incluso que la diferencia disminuye con N, no es el problema. La pregunta es cuándo y por qué usar cualquiera de los divisores.
0 votos
Mira este video, responde precisamente a tu pregunta. youtube.com/watch?v=xslIhnquFoE
0 votos
@SahilChaudhary, tu video habla de n y n-1. Mi pregunta no tiene nada que ver con n y n-1. Mi pregunta es sobre N y N-1. ¡Puedes ver que n y N son diferentes verdad? ¡He comentado en mi pregunta!
0 votos
¿Puedes decirnos, de qué libro se trata? @StasK
0 votos
El libro es "Muestreo de encuestas" por "Leslie Kish" de "John Willey & Sons" archive.org/details/in.ernet.dli.2015.214343
1 votos
Me gustaría mencionar a los otros lectores que este tema se llama "corrección de Bessel". Puedes consultarlo en Wikipedia es.wikipedia.org/wiki/...