60 votos

¿Cuál es la diferencia entre N y N-1 al calcular la varianza de la población?

No entendí por qué hay un N y un N-1 al calcular la varianza de la población. ¿Cuándo se usa N y cuándo se usa N-1?

Introducir descripción de la imagen aquí
Haz clic aquí para ver una versión más grande

Se dice que cuando la población es muy grande, no hay diferencia entre N y N-1, pero no explica por qué está el N-1 al principio.

Editar: Por favor, no confundir con n y n-1 que se utilizan en las estimaciones.

Editar2: No estoy hablando acerca de la estimación de la población.

6 votos

Puedes encontrar una respuesta aquí: stats.stackexchange.com/questions/16008/…. Básicamente, debes usar N-1 cuando estimas una varianza, y N cuando la calculas exactamente.

0 votos

@ocram, hasta donde sé, cuando estimamos una varianza utilizamos ya sea n o n-1.

0 votos

Si deseas que tu estimador sea imparcial, entonces debes usar n-1. Ten en cuenta que cuando n es grande, esto no es un problema.

33voto

Uri Puntos 111

En lugar de entrar en matemáticas, intentaré explicarlo en palabras sencillas. Si tienes toda la población a tu disposición, entonces su varianza (varianza de la población) se calcula con el denominador N. De la misma manera, si solo tienes una muestra y quieres calcular la varianza de la muestra, utilizas el denominador N (n de la muestra, en este caso). En ambos casos, ten en cuenta, no estás estimando nada: la media que has medido es la verdadera media y la varianza que has calculado a partir de esa media es la verdadera varianza.

Ahora, solo tienes una muestra y quieres inferir acerca de la media y la varianza desconocidas en la población. En otras palabras, quieres estimar. Utilizas tu media de la muestra para estimar la media de la población (porque tu muestra es representativa), ¿vale? Para obtener la estimación de la varianza de la población, debes fingir que esa media es realmente la media de la población y, por lo tanto, ya no depende de tu muestra desde que la calculaste. Para "demostrar" que ahora la consideras fija, reservas una (cualquiera) observación de tu muestra para "respaldar" el valor de la media: pase lo que pase en tu muestra, una observación reservada siempre podría llevar la media al valor que has obtenido y en el que crees que es insensible a las contingencias de muestreo. Una observación reservada es "-1" y por lo tanto tienes N-1 al calcular la estimación de la varianza. La estimación imparcial se llama varianza de la muestra (que no debe confundirse con la varianza de la muestra), que es un argot; es mejor llamarla por lo que es: estimación imparcial de la varianza poblacional estimada con la media de la muestra.

[Pegando aquí desde mis comentarios a continuación: Imagina que estás tomando muestras repetidas de tamaño N=3. De los 3 valores en una muestra, solo 2 valores expresan la variación aleatoria de las observaciones respecto a la media de la población, pero el tercero expresa (asume) el desplazamiento de la media de la muestra de la media de la población. Por lo tanto, el grado de libre variabilidad observacional es de 2 de los 3, en cada muestra separada. Cuando estimamos la variabilidad en una muestra pero queremos que sea una estimación imparcial (sin desplazamientos) de la variabilidad poblacional, "creemos" solo en esas 2 observaciones libres. "Pagamos" por la decisión de medir la variabilidad a partir de la media de la muestra como si fuera la media poblacional, ya que necesitamos inferir sobre la variabilidad de la población. Esta "tarifa" (denominador N-1, la corrección de Bessel) amplía la variabilidad, incorporando la oscilación de las medias de la muestra dentro de la varianza, pero hace que esa varianza sea un estimador imparcial.]

Pero imagina ahora que de alguna manera conoces la verdadera media de la población, pero quieres estimar la varianza a partir de la muestra. Entonces, sustituirás esa verdadera media en la fórmula de la varianza y aplicarás el denominador N: aquí no se necesita un "-1" ya que sabes la verdadera media, no la estimaste a partir de esta muestra.

0 votos

Pero mi pregunta no tiene nada que ver con la estimación. Se trata de calcular la varianza de la población; con N y N-1. No estoy hablando de n y n-1.

1 votos

@ilhan, en mi respuesta, utilicé N tanto para N como para n. N es un tamaño de una totalidad disponible, ya sea población o muestra. Para calcular la varianza de la población, debes tener la población a tu disposición. Si solo tienes una muestra, puedes calcular la varianza de esa muestra o calcular la varianza de la estimación de la población. No hay otra manera.

0 votos

Tengo información completa sobre mi población; todos los valores son conocidos. No estoy interesado en la estimación.

28voto

jldugger Puntos 7490

$N$ es el tamaño de la población y $n$ es el tamaño de la muestra. La pregunta es por qué la varianza de la población es la desviación cuadrada media de la media en lugar de multiplicarla por $(N-1)/N = 1-(1/N)$. ¿Por qué detenerse ahí? ¿Por qué no multiplicar la desviación cuadrada media por $1-2/N$, o $1-17/N$, o $\exp(-1/N)$, por ejemplo?

De hecho, hay una buena razón para no hacerlo. Cualquiera de las cifras que acabo de mencionar serviría perfectamente como una forma de cuantificar la "dispersión típica" dentro de la población. Sin embargo, sin un conocimiento previo del tamaño de la población, sería imposible usar una muestra aleatoria para encontrar un estimador imparcial de tal cifra. Sabemos que la varianza de la muestra, que multiplica la desviación cuadrada media de la media de la muestra por $(n-1)/n$, es un estimador imparcial de la varianza de la población habitual al muestrear con reemplazo. (¡No hay problema al hacer esta corrección, porque ¡conocemos $n$!) Por lo tanto, la varianza de la muestra sería un estimador sesgado de cualquier múltiplo de la varianza de la población donde ese múltiplo, como $1-1/N$, no se conoce exactamente de antemano.

Este problema de algún sesgo desconocido se propagaría a todas las pruebas estadísticas que utilizan la varianza de la muestra, incluidas las pruebas t y las pruebas F. En efecto, dividir por algo que no sea $N$ en la fórmula de la varianza de la población requeriría que cambiemos todas las tabulaciones estadísticas de t y F (y muchas otras tablas también), pero el ajuste dependería del tamaño de la población. ¡Nadie quiere tener que hacer tablas para cada posible $N$! Especialmente cuando no es necesario.

Como cuestión práctica, cuando $N$ es lo suficientemente pequeño como para que usar $N-1$ en lugar de $N$ en las fórmulas marque una diferencia, generalmente conoces el tamaño de la población (o puedes adivinarlo con precisión) y probablemente recurrirías a correcciones mucho más sustanciales para poblaciones pequeñas cuando trabajas con muestras aleatorias (sin reemplazo) de la población. En todos los demás casos, ¿a quién le importa? La diferencia no importa. Por estas razones, guiadas por consideraciones pedagógicas (es decir, centrarse en detalles que importan y pasar por alto detalles que no lo hacen), algunos excelentes textos introductorios de estadística ni siquiera se molestan en enseñar la diferencia: simplemente proporcionan una fórmula de varianza única (divida por $N$ o $n según sea el caso).

9voto

En el pasado hubo un argumento de que deberías usar N para una varianza no inferencial, pero ya no recomendaría eso. Siempre debes usar N-1. A medida que el tamaño de la muestra disminuye, N-1 es una corrección bastante buena para el hecho de que la varianza de la muestra disminuye (es más probable que muestres cerca del pico de la distribución, consulta la figura). Si el tamaño de la muestra es realmente grande, entonces no importa una cantidad significativa.

Una explicación alternativa es que la población es un constructo teórico imposible de lograr. Por lo tanto, siempre usa N-1 porque, en el mejor de los casos, estás estimando la varianza poblacional.

También verás N-1 para estimaciones de varianza de aquí en adelante. Probablemente nunca te encontrarás con este problema... excepto en una prueba cuando tu profesor te pida que hagas una distinción entre una medida de varianza inferencial y no inferencial. En ese caso, no uses la respuesta de whuber o la mía, consulta la respuesta de ttnphns.

Figura 1

Nota, en esta figura la varianza debería estar cerca de 1. Observa cuánta varía con el tamaño de la muestra cuando usas N para estimar la varianza. (esto es el "sesgo" referido en otros lugares)

2 votos

Por favor, dime por qué N "no se recomienda más" con la verdadera población disponible. La población no siempre es un constructo teórico. A veces tu muestra es una población legítima para ti.

0 votos

@John, ¿puedes por favor eliminar todo lo relacionado con "estimación", "estimando" y "muestra"? La pregunta es sobre la población en sí misma. Sin estimaciones, sin muestreo, sin muestras. Y por favor usa "n" al referirte al tamaño de la muestra. "N" se usa para el tamaño de la población. Corrígeme si estoy equivocado.

1 votos

Ilhan, N puede ser utilizado para tu muestra, o puede ser utilizado para el tamaño de la población, si existe. En la mayoría de los casos, la distinción entre N grande y n pequeña depende del tema. Por ejemplo, n podría ser el número de casos en cada condición en un experimento mientras que N podría ser el número total del experimento. Ambos son muestras. No hay una regla global.

8voto

Andrew Howlett Puntos 1

Generalmente, cuando uno solo tiene una fracción de la población, es decir, una muestra, se debe dividir por n-1. Hay una buena razón para hacerlo, sabemos que la varianza de la muestra, que multiplica la desviación media al cuadrado de la media muestral por (n-1)/n, es un estimador no sesgado de la varianza de la población.

Puedes encontrar una prueba de que el estimador de la varianza de la muestra es no sesgado aquí: https://economictheoryblog.com/2012/06/28/latexlatexs2/

Además, si uno aplicara el estimador de la varianza de la población, es decir, la versión del estimador de la varianza que divide por n, en una muestra en lugar de en la población, la estimación obtenida estaría sesgada.

0 votos

Esto parece responder a una pregunta diferente sobre la estimación de la varianza de la población. Parece circular: ¿no se basa esta respuesta en suponer una convención específica para definir la varianza de la población en primer lugar?

4voto

Auron Puntos 2123

La varianza de la población es la suma de las desviaciones al cuadrado de todos los valores en la población dividida por el número de valores en la población. Sin embargo, al estimar la varianza de una población a partir de una muestra, nos encontramos con el problema de que las desviaciones de los valores de la muestra respecto a la media de la muestra son, en promedio, un poco menores que las desviaciones de esos valores de la muestra respecto a la verdadera media de la población (desconocida). Esto hace que la varianza calculada a partir de la muestra sea un poco menor que la verdadera varianza de la población. Utilizar un divisor n-1 en lugar de n corrige esa subestimación.

0 votos

@Bunnenburg, Si obtuviste una respuesta a tu pregunta, por favor aclárame ahora, ¿qué obtuviste? También es una gran confusión para mí.

0 votos

Para compensar esa ligera menor variabilidad que obtenemos, ¿por qué no se pueden utilizar n-2, n-3, etc.? ¿Por qué n-1 en particular? ¿Por qué no un constante...???

0 votos

@SaravanabalagiRamachandran La discrepancia varía con el tamaño de la muestra y por lo tanto una constante no será útil. La corrección utilizando n-1 es más cercana y funciona mejor que las otras que mencionas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X