60 votos

¿Cuál es la diferencia entre N y N-1 al calcular la varianza de la población?

No entiendo por qué hay un N y un N-1 al calcular la varianza de la población. ¿Cuándo usamos N y cuándo usamos N-1?

escribir descripción de la imagen aquí
Haz clic aquí para ver una versión más grande

Se dice que cuando la población es muy grande, no hay diferencia entre N y N-1, pero no explica por qué está el N-1 al principio.

Edit: Por favor, no confundir con n y n-1 que se utilizan en la estimación.

Edit2: No estoy hablando de la estimación de la población.

6 votos

Puedes encontrar una respuesta aquí: stats.stackexchange.com/questions/16008/…. Básicamente, deberías usar N-1 cuando estimas una varianza, y N cuando la calculas exactamente.

0 votos

@ocram, hasta donde yo sé, cuando estimamos una varianza usamos ya sea n o n-1.

0 votos

Si deseas que tu estimador sea imparcial, entonces debes usar n-1. Ten en cuenta que cuando n es grande, esto no es importante.

33voto

Uri Puntos 111

En lugar de entrar en matemáticas, intentaré explicarlo en palabras sencillas. Si tienes toda la población a tu disposición, entonces su varianza (varianza de la población) se calcula con el denominador N. Del mismo modo, si solo tienes una muestra y quieres calcular la varianza de la muestra, utilizas el denominador N (n de la muestra, en este caso). En ambos casos, ten en cuenta que no estás estimando nada: la media que mediste es la verdadera media y la varianza que calculaste a partir de esa media es la verdadera varianza.

Ahora, tienes solo una muestra y quieres inferir sobre la media y varianza desconocidas en la población. En otras palabras, quieres estimar. Toma tu media de la muestra como estimación de la media de la población (porque tu muestra es representativa), vale. Para obtener la estimación de la varianza de la población, tienes que fingir que esa media es realmente la media de la población y por lo tanto ya no depende de tu muestra desde que la calculaste. Para "demostrar" que ahora la consideras fija, reservas una (cualquiera) observación de tu muestra para "respaldar" el valor de la media: pase lo que pase en tu muestra, una observación reservada siempre podría llevar la media al valor que obtuviste y en el que crees que es insensible a las contingencias de muestreo. Una observación reservada es "-1" y por lo tanto tienes N-1 al calcular la estimación de la varianza. La estimación no sesgada se llama varianza de la muestra (que no debe confundirse con la varianza de la muestra) que es un argot; es mejor llamarla como es: estimación no sesgada de la varianza de la población estimada con la media de la muestra.

[Pegando aquí de mis comentarios anteriores: Imagina que tomas muestras repetidamente de tamaño N=3. De los 3 valores en una muestra, solo 2 valores expresan la desviación aleatoria de las observaciones de la media de la población, pero el restante expresa (asume) el desplazamiento de la media de la muestra de la media de la población. Por lo tanto, el "grado de libertad" de la variabilidad observacional es de 2 de los 3, en cada muestra independiente. Cuando estimamos la variabilidad en una muestra pero queremos que sea una estimación imparcial (sin desplazamientos) de la variabilidad poblacional, "creemos" solo en esas 2 observaciones libres. "Pagamos" por la decisión de medir la variabilidad a partir de la media de la muestra como si fuera la media de la población, porque necesitamos inferir sobre la variabilidad poblacional. Esta "tarifa" (denominador N-1, la corrección de Bessel) hace que la variabilidad sea más amplia, incorporando la oscilación de las medias de las muestras dentro de la varianza, pero hace que dicha varianza sea un estimador imparcial.]

Pero imagina ahora que de alguna manera conoces la verdadera media de la población, pero quieres estimar la varianza a partir de la muestra. Entonces sustituirás esa verdadera media en la fórmula de la varianza y aplicarás el denominador N: no se necesita "-1" aquí ya que sabes la verdadera media, no la estimaste a partir de esta misma muestra.

0 votos

Pero mi pregunta no tiene nada que ver con la estimación. Se trata de calcular la varianza de la población; con N y N-1. No estoy hablando de n y n-1.

1 votos

@ilhan, en mi respuesta, utilicé N tanto para N como para n. N es un tamaño de una totalidad disponible, ya sea población o muestra. Para calcular la varianza de la población, debes tener la población a tu disposición. Si solo tienes una muestra, puedes calcular la varianza de esta muestra o calcular la varianza de la estimación de la población. No hay otra forma de hacerlo.

0 votos

Tengo información completa sobre mi población; todos los valores son conocidos. No estoy interesado en la estimación.

28voto

jldugger Puntos 7490

$N$ es el tamaño de la población y $n$ es el tamaño de la muestra. La pregunta es por qué la varianza de la población es la desviación cuadrada media con respecto a la media en lugar de multiplicarla por $(N-1)/N = 1-(1/N)$. De hecho, ¿por qué quedarse ahí? ¿Por qué no multiplicar la desviación cuadrada media por $1-2/N$, o $1-17/N$, o $\exp(-1/N)$, por ejemplo?

De hecho, hay una buena razón para no hacerlo. Cualquiera de las cifras que acabo de mencionar serviría perfectamente como una forma de cuantificar una "dispersión típica" dentro de la población. Sin embargo, sin conocimiento previo del tamaño de la población, sería imposible utilizar una muestra aleatoria para encontrar un estimador imparcial de tal cifra. Sabemos que la varianza de la muestra, que multiplica la desviación cuadrada media con respecto a la media muestral por $(n-1)/n$, es un estimador imparcial de la varianza normal de la población al muestrear con reemplazo. (¡No hay problema en hacer esta corrección, porque ¡sabemos $n$!) Por lo tanto, la varianza de la muestra sería un estimador sesgado de cualquier múltiplo de la varianza de la población donde ese múltiplo, como $1-1/N$, no se conoce exactamente de antemano.

Este problema de cierta cantidad desconocida de sesgo se propagaría a todas las pruebas estadísticas que utilizan la varianza de la muestra, incluidas las pruebas t y F. De hecho, dividir por cualquier cosa que no sea $N$ en la fórmula de la varianza de la población requeriría que cambiáramos todas las tabulaciones estadísticas de t-estadísticas y F-estadísticas (y muchas otras tablas también), pero el ajuste dependería del tamaño de la población. ¡Nadie quiere tener que hacer tablas para cada posible $N$! Especialmente cuando no es necesario.

Como cuestión práctica, cuando $N$ es lo suficientemente pequeño como para que utilizar $N-1$ en lugar de $N$ en las fórmulas marque la diferencia, generalmente se conoce el tamaño de la población (o se puede adivinar con precisión) y es probable que se recurra a correcciones mucho más sustanciales correcciones para poblaciones pequeñas al trabajar con muestras aleatorias (sin reemplazo) de la población. En todos los demás casos, ¿a quién le importa? La diferencia no importa. Por estas razones, guiados por consideraciones pedagógicas (es decir, enfocándose en detalles que importan y pasando por alto los detalles que no importan), algunos excelentes textos introductorios de estadística ni siquiera se molestan en enseñar la diferencia: simplemente proporcionan una fórmula de varianza única (divida por $N$ o $n según corresponda).

9voto

En el pasado ha habido un argumento de que se debería usar N para una varianza no inferencial, pero ya no recomendaría eso. Siempre se debe usar N-1. A medida que el tamaño de la muestra disminuye, N-1 es una corrección bastante buena para el hecho de que la varianza de la muestra disminuye (es más probable que se muestree cerca del pico de la distribución, ver figura). Si el tamaño de la muestra es realmente grande, entonces no importa en una cantidad significativa.

Una explicación alternativa es que la población es un constructo teórico que es imposible de lograr. Por lo tanto, siempre use N-1 porque independientemente de lo que esté haciendo, está, en el mejor de los casos, estimando la varianza de la población.

También, a partir de ahora, siempre verás N-1 para las estimaciones de la varianza. Es probable que nunca te encuentres con este problema... excepto en una prueba cuando tu profesor te pida que hagas una distinción entre una medida de varianza inferencial y no inferencial. En ese caso, no uses la respuesta de whuber o la mía, consulta la respuesta de ttnphns.

Figura 1

Nota, en esta figura la varianza debería estar cerca de 1. Mira cuánto varía con el tamaño de la muestra cuando se usa N para estimar la varianza (esto es el "sesgo" al que se hace referencia en otros lugares).

2 votos

Por favor, dime por qué N "ya no recomendado" con la verdadera población a mano. La población no siempre es un constructo teórico. A veces, tu muestra es una población legítima para ti.

0 votos

@Juan, ¿podrías por favor eliminar todo lo relacionado con "estimación", "estimando" y "muestra"? La pregunta se refiere a la población en sí misma. Sin estimaciones, sin muestreo, sin muestras. Y por favor utiliza "n" cuando te refieras al tamaño de la muestra. "N" se usa para el tamaño de la población. Corrígeme si estoy equivocado.

1 votos

Ilhan, N se puede usar para tu muestra, o se puede usar para el tamaño de la población, si existe. En la mayoría de los casos la distinción entre N grande y n pequeña depende del tema. Por ejemplo, n podría ser el número de casos en cada condición en un experimento mientras que N podría ser el número para todo el experimento. Ambas son muestras. No hay una regla global.

8voto

Andrew Howlett Puntos 1

Generalmente, cuando se tiene solo una fracción de la población, es decir, una muestra, se debe dividir por n-1. Existe una buena razón para hacerlo, sabemos que la varianza de la muestra, que multiplica la desviación cuadrada media de la media de la muestra por (n−1)/n, es un estimador insesgado de la varianza de la población.

Puedes encontrar una prueba de que el estimador de la varianza de la muestra es insesgado aquí: https://economictheoryblog.com/2012/06/28/latexlatexs2/

Además, si se aplicara el estimador de la varianza de la población, es decir, la versión del estimador de la varianza que divide por n, en una muestra en lugar de la población, la estimación obtenida sería sesgada.

0 votos

Esto parece responder a una pregunta diferente sobre la estimación de la varianza de la población. Parece circular: ¿no se basa esta respuesta en suponer una convención específica para definir la varianza de la población en primer lugar?

4voto

Auron Puntos 2123

La varianza de la población es la suma de las desviaciones al cuadrado de todos los valores en la población dividida por el número de valores en la población. Sin embargo, al estimar la varianza de una población a partir de una muestra, nos encontramos con el problema de que las desviaciones de los valores de la muestra respecto a la media de la muestra son, en promedio, un poco menores que las desviaciones de esos valores de muestra respecto a la verdadera media de la población (desconocida). Eso resulta en una varianza calculada a partir de la muestra siendo un poco menor que la verdadera varianza de la población. Utilizar un divisor n-1 en lugar de n corrige esa subestimación.

0 votos

@Bunnenburg, si obtuviste respuesta a tu pregunta, por favor aclárame ahora, ¿qué conseguiste? También es una gran confusión para mí.

0 votos

Para compensar esa pequeña menos variabilidad que obtenemos, ¿por qué no utilizar n-2, n-3, etc.? ¿Por qué n-1 en particular? ¿Por qué no una constante...???

0 votos

@SaravanabalagiRamachandran La discrepancia varía con el tamaño de la muestra y por lo tanto una constante no servirá. La corrección usando n-1 está más cerca y funciona mejor que las otras que mencionas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X