14 votos

¿Es cualquier propiedad cuantitativa de la población un "parámetro"?

Estoy relativamente familiarizado con la distinción entre los términos estadística y parámetro. Considero que un estadístico es el valor obtenido al aplicar una función a los datos de la muestra. Sin embargo, la mayoría de los ejemplos de parámetros se refieren a la definición de una distribución paramétrica. Un ejemplo común es la media y la desviación estándar para parametrizar la distribución normal o los coeficientes y la varianza del error para parametrizar una regresión lineal.

Sin embargo, hay muchos otros valores de la distribución de la población que son menos prototípicos (por ejemplo, el mínimo, el máximo, el cuadrado r en la regresión múltiple, el cuantil 0,25, la mediana, el número de predictores con coeficientes distintos de cero, la asimetría, el número de correlaciones en una matriz de correlación superior a 0,3, etc.).

Así, mis preguntas son:

  • ¿Debe calificarse de "parámetro" cualquier propiedad cuantitativa de una población?
  • En caso afirmativo, ¿por qué?
  • Si la respuesta es no, ¿qué características no deben ser etiquetadas como parámetro? ¿Cómo deberían etiquetarse? ¿Y por qué?

Elaboración de la confusión

El artículo de la Wikipedia sobre los estimadores dice

Un "estimador" o "estimación puntual" es un estadístico (es decir, una función de los datos) que se utiliza para inferir el valor de un parámetro desconocido en un modelo estadístico.

Pero puedo definir el valor desconocido como el cuantil 0,25 y puedo desarrollar un estimador para esa incógnita. Es decir, no todas las propiedades cuantitativas de una población son parámetros de la misma manera que, por ejemplo, la media y la sd son parámetros de una distribución normal, pero es legítimo tratar de estimar cualquier propiedad cuantitativa de la población.

18voto

jldugger Puntos 7490

Esta pregunta se refiere a la esencia de la estadística y a la forma de realizar un buen análisis estadístico. Plantea muchas cuestiones, algunas de terminología y otras de teoría. Para aclararlas, empecemos por señalar el contexto implícito de la pregunta y, a partir de ahí, definamos los términos clave "parámetro", "propiedad" y "estimador". Las distintas partes de la pregunta se responden a medida que surgen en la discusión. La sección final de conclusiones resume las ideas clave.

Espacios estatales

Un uso estadístico común de "la distribución", como en "la distribución Normal con PDF proporcional a $\exp(-\frac{1}{2}(x-\mu)/\sigma)^2)dx$ " es en realidad un (grave) abuso del inglés, porque obviamente no se trata de una distribución: es toda una familia de distribuciones parametrizado por los símbolos $\mu$ y $\sigma$ . Una notación estándar para esto es el "espacio de estado" $\Omega$ , a set de las distribuciones. (Estoy simplificando un poco aquí en aras de la exposición y seguiré simplificando a medida que avancemos, sin dejar de ser lo más riguroso posible). Su función es delimitar los posibles objetivos de nuestros procedimientos estadísticos: cuando estimamos algo, estamos escogiendo uno (o a veces más) elementos de $\Omega$ .

A veces los espacios de estado se parametrizan explícitamente, como en $\Omega = \{\mathcal{N}(\mu, \sigma^2)|\mu \in \mathbb{R}, \sigma \gt 0\}$ . En esta descripción existe una correspondencia unívoca entre el conjunto de tuplas $\{(\mu,\sigma)\}$ en el semiplano superior y el conjunto de distribuciones que utilizaremos para modelar nuestros datos. Uno de los valores de esta parametrización es que ahora podemos referirnos concretamente a las distribuciones en $\Omega$ mediante un par ordenado de números reales.

En otros casos, los espacios de estado no están explícitamente parametrizados. Un ejemplo sería el conjunto de todas las distribuciones continuas unimodales. A continuación, abordaremos la cuestión de si se puede encontrar una parametrización adecuada en estos casos de todos modos.

Parametrizaciones

Por lo general, un parametrización de $\Omega$ es una correspondencia (matemática función ) de un subconjunto de $\mathbb{R}^d$ (con $d$ finito) a $\Omega$ . Es decir, utiliza conjuntos ordenados de $d$ -para etiquetar las distribuciones. Pero no se trata de cualquier correspondencia: tiene que estar "bien comportada". Para entenderlo, consideremos el conjunto de todas las distribuciones continuas cuyas FDP tienen expectativas finitas. Esto se consideraría ampliamente como "no paramétrico" en el sentido de que cualquier intento "natural" de parametrizar este conjunto implicaría una secuencia contable de números reales (utilizando una expansión en cualquier base ortogonal). Sin embargo, como este conjunto tiene cardinalidad $\aleph_1$ que es la cardinalidad de los reales, debe existir alguna correspondencia uno a uno entre estas distribuciones y $\mathbb{R}$ . Paradójicamente, eso parecería hacer de esto un parametrizado espacio de estados con un solo ¡parámetro real!

La paradoja se resuelve observando que un único número real no puede disfrutar de una relación "agradable" con las distribuciones: cuando cambiamos el valor de ese número, la distribución a la que corresponde debe cambiar en algunos casos de forma radical. Descartamos esas parametrizaciones "patológicas" exigiendo que Las distribuciones correspondientes a valores cercanos de sus parámetros deben ser a su vez "cercanas" entre sí. Discutir las definiciones adecuadas de "cercano" nos llevaría demasiado lejos, pero espero que esta descripción sea suficiente para demostrar que ser un parámetro es mucho más que nombrar una distribución particular.

Propiedades de las distribuciones

A través de la aplicación repetida, nos acostumbramos a pensar en una "propiedad" de una distribución como alguna cantidad inteligible que aparece frecuentemente en nuestro trabajo, como su expectativa, varianza, etc. El problema de esto como posible definición de la "propiedad" es que es demasiado vaga y no lo suficientemente general. (Aquí es donde se encontraban las matemáticas a mediados del siglo XVIII, donde las "funciones" se consideraban procesos finitos aplicados a los objetos). En cambio, la única definición sensata de "propiedad" que siempre funcionará es pensar que una propiedad es un número que se asigna de forma exclusiva a cada distribución en $\Omega$ . Esto incluye la media, la varianza, cualquier momento, cualquier combinación algebraica de momentos, cualquier cuantil, y mucho más, incluyendo cosas que ni siquiera se pueden calcular. Sin embargo, sí no incluir cosas que no tendrían sentido para algunos de los elementos de $\Omega$ . Por ejemplo, si $\Omega$ consiste en todas las distribuciones t de Student, entonces la media es no una propiedad válida para $\Omega$ (porque $t_1$ no tiene media). Esto nos hace ver una vez más cuánto dependen nuestras ideas de lo que $\Omega$ realmente consiste en.

Las propiedades no siempre son parámetros

Una propiedad puede ser una función tan complicada que no serviría como parámetro. Consideremos el caso de la "distribución normal". Podríamos querer saber si la media de la distribución verdadera, cuando se redondea al número entero más cercano, es par. Eso es una propiedad. Pero no servirá como parámetro.

Los parámetros no son necesariamente propiedades

Cuando los parámetros y las distribuciones están en correspondencia uno a uno, entonces obviamente cualquier parámetro, y cualquier función de los parámetros para el caso, es una propiedad según nuestra definición. Pero no es necesario que haya una correspondencia unívoca entre los parámetros y las distribuciones: a veces algunas distribuciones deben ser descritas por dos o más valores distintos de los parámetros. Por ejemplo, un parámetro de localización de puntos en la esfera utilizaría naturalmente la latitud y la longitud. Eso está bien, excepto en los dos polos, que corresponden a una latitud y una longitud determinadas. tout longitud válida. El ubicación (punto en la esfera) es efectivamente una propiedad, pero su longitud no es necesariamente una propiedad. Aunque hay varias evasivas (basta con declarar que la longitud de un polo es cero, por ejemplo), esta cuestión pone de manifiesto la importante diferencia conceptual entre un propiedad (que se asocia exclusivamente a una distribución) y un parámetro (que es una forma de etiquetar la distribución y podría no ser única).

Procedimientos estadísticos

El objetivo de una estimación se llama estimand . Es simplemente una propiedad. El estadístico es no libre de seleccionar el estimando: eso es competencia de su cliente. Cuando alguien acude a usted con una muestra de una población y le pide que estime el percentil 99 de la población, probablemente sería negligente si le proporcionara un estimador de la media. Su trabajo, como estadístico, es identificar un buen procedimiento para estimar la estimación que se le ha dado. (A veces tu trabajo consiste en convencer a tu cliente de que ha seleccionado el estimando equivocado para sus objetivos científicos, pero eso es otro tema...)

Por definición, un procedimiento es una forma de obtener un número a partir de los datos. Los procedimientos suelen darse como fórmulas que se aplican a los datos, como "sumarlos todos y dividirlos por su número". Literalmente tout se puede pronunciar un "estimador" de un estimando dado. Por ejemplo, podría declarar que la media de la muestra (una fórmula aplicada a los datos) estima la varianza de la población (una propiedad de la población, suponiendo que nuestro cliente ha restringido el conjunto de poblaciones posibles $\Omega$ para incluir sólo los que realmente tienen desviaciones).

Estimadores

Un estimador no necesita tener ninguna conexión obvia con el estimando. Por ejemplo, ¿ves alguna relación entre la media de la muestra y la varianza de la población? Yo tampoco. Sin embargo, la media de la muestra es un buen estimador de la varianza de la población. para ciertos $\Omega$ (como el conjunto de todas las distribuciones de Poisson). Aquí reside una de las claves para entender los estimadores: sus cualidades dependen del conjunto de estados posibles $\Omega$ . Pero eso es sólo una parte.

Un estadístico competente querrá saber cuál es el rendimiento real del procedimiento que recomienda. Llamemos al procedimiento " $t$ "y que el estimando sea $\theta$ . Al no saber qué distribución es la verdadera, contemplará la realización del procedimiento para todas las distribuciones posibles $F \in \Omega$ . Teniendo en cuenta esta $F$ y dado cualquier resultado posible $s$ (es decir, un conjunto de datos), comparará $t(s)$ (lo que su procedimiento estima) a $\theta(F)$ (el valor del estimando para $F$ ). Es responsabilidad de su cliente decirle lo cerca o lejos que están esos dos. (Esto se suele hacer con una función de "pérdida".) A continuación, puede contemplar la expectativa de la distancia entre $t(s)$ y $\theta(F)$ . Esta es la riesgo de su procedimiento. Porque depende de $F$ el riesgo es una función definida en $\Omega$ .

Los estadísticos (buenos) recomiendan procedimientos basados en la comparación de riesgos. Por ejemplo, supongamos que para cada $F \in \Omega$ el riesgo del procedimiento $t_1$ es menor o igual que el riesgo de $t$ . Entonces no hay razón para usar nunca $t$ : es "inadmisible". En caso contrario, es "admisible".

(Un estadístico "bayesiano" se siempre comparar los riesgos promediando sobre una distribución "a priori" de los posibles estados (normalmente suministrada por el cliente). Un estadístico "frecuentista" podría hacer esto, si tal prioridad existe justificadamente, pero también está dispuesto a comparar riesgos de otras maneras que los bayesianos evitan).

Conclusiones

Tenemos derecho a decir que cualquier $t$ que es admisible para $\theta$ es un estimador de $\theta$ . A efectos prácticos (porque los procedimientos admisibles pueden ser difíciles de encontrar), tenemos que doblar esto para decir que tout $t$ que tiene un riesgo aceptablemente pequeño (cuando se compara con $\theta$ ) entre los procedimientos practicables es un estimador de $\theta$ . "Aceptablemente" y "practicable" los determina el cliente, por supuesto: "aceptablemente" se refiere a su riesgo y "practicable" refleja el coste (finalmente pagado por ellos) de aplicar el procedimiento.

En esta concisa definición subyacen todas las ideas que acabamos de exponer: para entenderla debe tener en mente un $\Omega$ (que es un modelo del problema, proceso o población en estudio), un estimando definido (suministrado por el cliente), una función de pérdida específica (que conecta cuantitativamente $t$ a la estimación y también la da el cliente), la idea de riesgo (calculada por el estadístico), algún procedimiento para comparar las funciones de riesgo (responsabilidad del estadístico en consulta con el cliente), y un sentido de los procedimientos que realmente pueden llevarse a cabo (la cuestión de la "practicabilidad"), aunque ninguno de ellos se menciona explícitamente en la definición.

11voto

Nick Cox Puntos 22819

Como ocurre con muchas preguntas sobre definiciones, las respuestas deben tener en cuenta tanto los principios subyacentes como la forma en que se utilizan los términos en la práctica, que a menudo puede ser, como mínimo, un poco imprecisa o incoherente, incluso por parte de personas bien informadas, y lo que es más importante, variable de una comunidad a otra.

Un principio común es que un estadístico es una propiedad de una muestra, y una constante conocida, y un parámetro es la propiedad correspondiente de la población, y por tanto una constante desconocida. La palabra "correspondiente" debe entenderse aquí como bastante elástica. Por cierto, esta distinción y esta terminología tienen menos de un siglo de antigüedad, ya que fueron introducidas por R.A. Fisher.

Pero

  1. La configuración de la muestra y la población no caracteriza todos nuestros problemas. Las series temporales son una clase importante de ejemplos en los que la idea es más bien la de un proceso generador subyacente, y algo así es posiblemente la idea más profunda y general.

  2. Hay montajes en los que los parámetros cambian. Una vez más, el análisis de series temporales ofrece ejemplos.

  3. En cuanto al punto principal, en la práctica no pensamos en todas las propiedades de una población o proceso como parámetros. Si algún procedimiento asume un modelo de distribución normal, entonces el mínimo y el máximo no son parámetros. (De hecho, según el modelo, el mínimo y el máximo son números negativos y positivos arbitrariamente grandes de cualquier manera, no es que eso deba preocuparnos).

Yo diría que, por una vez, Wikipedia apunta en la dirección correcta en este caso, y la práctica y los principios se respetan si decimos que un parámetro es lo que estamos estimando .

Esto también ayuda con otras preguntas que han causado perplejidad. Por ejemplo, si calculamos una media recortada del 25%, ¿qué estamos estimando? Una respuesta razonable es la propiedad correspondiente de la población, que en efecto está definida por el método de estimación. Una terminología es que un estimador tiene un estimando, lo que sea que esté estimando. Empezar con una idea platónica de una propiedad "ahí fuera" (por ejemplo, la moda de una distribución) y pensar en cómo estimarla es razonable, al igual que pensar en buenas recetas para analizar los datos y pensar en lo que implican cuando se consideran como inferencia.

Como ocurre a menudo en las matemáticas aplicadas o en la ciencia, un parámetro tiene una doble vertiente. A menudo pensamos en él como algo real ahí fuera que estamos descubriendo, pero también es cierto que es algo definido por nuestro modelo del proceso, de modo que no tiene ningún significado fuera del contexto del modelo.

Dos puntos muy diferentes:

  1. Muchos científicos utilizan la palabra "parámetro" del mismo modo que los estadísticos utilizan variable. Yo tengo una personalidad científica además de estadística, y diría que eso es desafortunado. Variables y propiedades son mejores palabras.

  2. Es muy común en el uso generalizado del inglés que se piense que parámetro significa límites o fronteras, lo que puede provenir de alguna confusión original entre "parámetro" y "perímetro".

Una nota sobre el punto de vista del estimando

La posición clásica es que identificamos un parámetro por adelantado y luego decidimos cómo estimarlo, y esto sigue siendo la práctica mayoritaria, pero invertir el proceso no es absurdo y puede ser útil para algunos problemas. A esto lo llamo el punto de vista del estimador. Existe en la literatura desde hace al menos 50 años. Tukey (1962, p.60) insistió en que

"Debemos prestar aún más atención a empezar con un estimador y descubrir qué es un estimando razonable, a descubrir qué es razonable pensar que que el estimador está estimando".

Un punto de vista similar ha sido elaborado formalmente con considerable detalle y profundidad por Bickel y Lehmann (1975) e informalmente con considerable lucidez por Mosteller y Tukey (1977, pp.32-34).

También hay una versión elemental. Utilizando (digamos) la mediana de la muestra o la media geométrica para estimar el correspondiente parámetro poblacional tiene sentido independientemente de que la distribución subyacente subyacente es simétrica, y la misma buena voluntad puede extenderse a (por ejemplo) las medias recortadas de la muestra, que se consideran estimadores de sus de sus homólogas poblacionales.

Bickel, P.J. y E.L. Lehmann. 1975. Estadísticas descriptivas para modelos no paramétricos. II. Ubicación . Anales de Estadística 3: 1045-1069.

Mosteller, F. y J.W. Tukey. 1977. Análisis de datos y regresión. Reading, MA: Addison-Wesley.

Tukey, J.W. 1962. El futuro del análisis de datos . Anales de Estadística Matemática 33: 1-67.

1 votos

Gran parte de esto parece estar en desacuerdo con la literatura estadística estándar, especialmente su definición de parámetro. Parece confundir los procesos de encontrar un procedimiento para calcular una estimación y identificar lo que se va a estimar. Esto último -la elección del estimando- es una cuestión que debe determinar el científico o investigador. El estadístico selecciona entonces el primero para que tenga las propiedades deseables entre todos los procedimientos posibles para estimar el estimando. También hay cuestiones técnicas; baste decir que un parámetro es más restringido que un estimando arbitrario.

0 votos

Ampliaré mi respuesta para abordar este tema.

1 votos

Estoy de acuerdo con Tukey, aunque por mi respuesta en este hilo se podría pensar que soy uno de los estadísticos "osificados" a los que desafía. El problema es que has sacado su cita de contexto. Tukey se refiere específicamente a la cuestión de cómo evaluar las propiedades de los procedimientos "cuando las hipótesis sobre las que se desarrollan habitualmente no se mantienen". Esto no cambia en absoluto la definiciones de cosas como parámetros, estimadores y estimandos. En particular, un parámetro sigue siendo no "lo que sea que estemos estimando".

6voto

Sean Hanley Puntos 2428

Tiendo a pensar en parámetros por analogía pensando en la distribución normal:
$$ \text{pdf}=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2}\frac{(x_i-\mu)^2}{\sigma^2}} $$ Lo que es importante reconocer sobre esta función es que, por muy fea que sea, sé más o menos cuáles son la mayoría de las partes. Por ejemplo, sé lo que los números $1$ y $2$ son, lo que $\pi$ es ( $\approx 3.1415926$ ) y que $e$ es ( $\approx 2.718281828$ ); sé lo que significa elevar algo al cuadrado o sacar la raíz cuadrada de algo básicamente lo sé todo. Además, si quisiera saber la altura de la función en algún punto específico $X$ valor, $x_i$ , entonces es obvio que sé que valor también. En otras palabras, una vez que sé que la ecuación anterior es con la que tengo que trabajar, sé todo lo que hay que saber, una vez que aprenda los valores de $\boldsymbol\mu$ y $\boldsymbol\sigma^2$ . Estos valores son los parámetros . Específicamente son desconocidos constantes que controlan el comportamiento de la distribución. Así, por ejemplo, si quisiera conocer el $X$ valor que correspondía a la $25^{\text{th}}\%$ , puedo determinar eso (o cualquier otra cosa sobre esa distribución), después de conociendo $\mu$ y $\sigma^2$ (pero no al revés). La ecuación anterior privilegia $\mu$ y $\sigma^2$ de una manera que no lo hace para ningún otro valor.

Del mismo modo, si estuviera trabajando con un modelo de regresión múltiple OLS, donde se supone que el proceso de generación de datos es:
$$ Y=\beta_0 + \beta_1X_1 + \beta_2X_2 + \varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, \sigma^2) $$ entonces, una vez que aprenda (en la práctica, estimación ) los valores de $\boldsymbol\beta_0$ , $\boldsymbol\beta_1$ , $\boldsymbol\beta_2$ y $\boldsymbol\sigma^2$ Sé todo lo que hay que saber . Todo lo demás, como el $25^{\text{th}}\%$ de la distribución condicional de $Y$ donde $X=x_i$ Puedo calcular basándome en mis conocimientos de $\beta_0$ , $\beta_1$ , $\beta_2$ y $\sigma^2$ . El modelo de regresión múltiple anterior privilegia $\beta_0$ , $\beta_1$ , $\beta_2$ y $\sigma^2$ de una manera que no lo hace para ningún otro valor.

(Todo esto supone, por supuesto, que mi modelo de la distribución de la población o del proceso de generación de datos es correcto. Como siempre, conviene tener en cuenta que "todos los modelos son erróneos, pero algunos son útiles". George Box .)

Para responder a sus preguntas de forma más explícita, diría que:

  • No, cualquier cuantitativo antiguo correctamente no debe ser etiquetado como un "parámetro".
  • n/a
  • Las características que deben etiquetarse como "parámetro" dependen de la especificación del modelo. No tengo un nombre especial para otras características cuantitativas, pero creo que estaría bien llamarlas propiedades o características o consecuencias etc.

0 votos

Gracias. Pero, ¿qué terminología utilizas para describir todos aquellos valores poblacionales que pueden derivarse de un modelo paramétrico pero que no están en el conjunto de parámetros convenientes para representar ese modelo? O, alternativamente, podría darse el caso de que no conozcas el modelo poblacional y no te importe especialmente, pero te interese un aspecto particular no estándar del modelo poblacional.

0 votos

No tengo ningún nombre especial de aplicación general, pero hay nombres para algunos valores particulares. Por ejemplo, si no cree que su población se aproxime lo suficiente a ninguna distribución bien estudiada, podría intentar caracterizarla por su mediana, cuartiles, puntos de articulación, etc.

3 votos

Una cuestión sutil sobre los parámetros es expuesta por un viejo truco informático: tomar las representaciones binarias (o decimales) de $\beta_0, \beta_1, \beta_2,$ y $\sigma$ e intercalarlos (por grupos de cuatro) para hacer un nuevo número binario (o decimal) $\theta$ . Obviamente, el proceso es reversible: se puede leer $\beta_0$ de los primeros, quintos, novenos, ..., etc. dígitos de $\theta$ y así sucesivamente. Por lo tanto, "una vez que [se] aprende el valor de $\theta$ [tú] sabes todo lo que hay que saber". Pero $\theta$ es no un parámetro válido debido a la forma contorsionada en que etiqueta las posibles distribuciones.

3voto

Eric Davis Puntos 1542

Ha habido algunas respuestas estupendas a esta pregunta, sólo pensé en resumir una referencia interesante que proporciona una discusión bastante rigurosa de los estimadores.

Los laboratorios virtuales página sobre estimadores define

  • a estadística como "una función observable de la variable de resultado".
  • "en el sentido técnico, un parámetro $\theta$ es una función de la distribución de X"

El concepto de función de una distribución es una idea muy general. Así, cada uno de los ejemplos anteriores podría verse como una función de una determinada distribución.

  • Cada cuantil, incluyendo el mínimo, la mediana, el cuantil 25 y el máximo pueden ser una función de una distribución.
  • La asimetría es una función de una distribución. Si esa distribución poblacional es normal, entonces estos serán cero, pero eso no impide el cálculo de estos valores.
  • El recuento del número de correlaciones superiores a un determinado valor es una función de la matriz de covarianza, que a su vez es una función de una distribución multivariante.
  • El R-cuadrado es una función de la distribución.

1 votos

Una de las razones por las que ofrecí una respuesta más elaborada es que esta definición de "parámetro" no es suficiente. Para un contraejemplo, véase mi comentario a la respuesta de @gung . Intuitivamente, un conjunto de parametrizado forma un colector topológico de dimensión finita con límite; un parámetro tiene que ser un continuo definida en el colector. Esto es algo más que un requisito técnico, ya que está relacionado con las distribuciones de muestreo de las estimaciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X