Esta pregunta se refiere a la esencia de la estadística y a la forma de realizar un buen análisis estadístico. Plantea muchas cuestiones, algunas de terminología y otras de teoría. Para aclararlas, empecemos por señalar el contexto implícito de la pregunta y, a partir de ahí, definamos los términos clave "parámetro", "propiedad" y "estimador". Las distintas partes de la pregunta se responden a medida que surgen en la discusión. La sección final de conclusiones resume las ideas clave.
Espacios estatales
Un uso estadístico común de "la distribución", como en "la distribución Normal con PDF proporcional a $\exp(-\frac{1}{2}(x-\mu)/\sigma)^2)dx$ " es en realidad un (grave) abuso del inglés, porque obviamente no se trata de una distribución: es toda una familia de distribuciones parametrizado por los símbolos $\mu$ y $\sigma$ . Una notación estándar para esto es el "espacio de estado" $\Omega$ , a set de las distribuciones. (Estoy simplificando un poco aquí en aras de la exposición y seguiré simplificando a medida que avancemos, sin dejar de ser lo más riguroso posible). Su función es delimitar los posibles objetivos de nuestros procedimientos estadísticos: cuando estimamos algo, estamos escogiendo uno (o a veces más) elementos de $\Omega$ .
A veces los espacios de estado se parametrizan explícitamente, como en $\Omega = \{\mathcal{N}(\mu, \sigma^2)|\mu \in \mathbb{R}, \sigma \gt 0\}$ . En esta descripción existe una correspondencia unívoca entre el conjunto de tuplas $\{(\mu,\sigma)\}$ en el semiplano superior y el conjunto de distribuciones que utilizaremos para modelar nuestros datos. Uno de los valores de esta parametrización es que ahora podemos referirnos concretamente a las distribuciones en $\Omega$ mediante un par ordenado de números reales.
En otros casos, los espacios de estado no están explícitamente parametrizados. Un ejemplo sería el conjunto de todas las distribuciones continuas unimodales. A continuación, abordaremos la cuestión de si se puede encontrar una parametrización adecuada en estos casos de todos modos.
Parametrizaciones
Por lo general, un parametrización de $\Omega$ es una correspondencia (matemática función ) de un subconjunto de $\mathbb{R}^d$ (con $d$ finito) a $\Omega$ . Es decir, utiliza conjuntos ordenados de $d$ -para etiquetar las distribuciones. Pero no se trata de cualquier correspondencia: tiene que estar "bien comportada". Para entenderlo, consideremos el conjunto de todas las distribuciones continuas cuyas FDP tienen expectativas finitas. Esto se consideraría ampliamente como "no paramétrico" en el sentido de que cualquier intento "natural" de parametrizar este conjunto implicaría una secuencia contable de números reales (utilizando una expansión en cualquier base ortogonal). Sin embargo, como este conjunto tiene cardinalidad $\aleph_1$ que es la cardinalidad de los reales, debe existir alguna correspondencia uno a uno entre estas distribuciones y $\mathbb{R}$ . Paradójicamente, eso parecería hacer de esto un parametrizado espacio de estados con un solo ¡parámetro real!
La paradoja se resuelve observando que un único número real no puede disfrutar de una relación "agradable" con las distribuciones: cuando cambiamos el valor de ese número, la distribución a la que corresponde debe cambiar en algunos casos de forma radical. Descartamos esas parametrizaciones "patológicas" exigiendo que Las distribuciones correspondientes a valores cercanos de sus parámetros deben ser a su vez "cercanas" entre sí. Discutir las definiciones adecuadas de "cercano" nos llevaría demasiado lejos, pero espero que esta descripción sea suficiente para demostrar que ser un parámetro es mucho más que nombrar una distribución particular.
Propiedades de las distribuciones
A través de la aplicación repetida, nos acostumbramos a pensar en una "propiedad" de una distribución como alguna cantidad inteligible que aparece frecuentemente en nuestro trabajo, como su expectativa, varianza, etc. El problema de esto como posible definición de la "propiedad" es que es demasiado vaga y no lo suficientemente general. (Aquí es donde se encontraban las matemáticas a mediados del siglo XVIII, donde las "funciones" se consideraban procesos finitos aplicados a los objetos). En cambio, la única definición sensata de "propiedad" que siempre funcionará es pensar que una propiedad es un número que se asigna de forma exclusiva a cada distribución en $\Omega$ . Esto incluye la media, la varianza, cualquier momento, cualquier combinación algebraica de momentos, cualquier cuantil, y mucho más, incluyendo cosas que ni siquiera se pueden calcular. Sin embargo, sí no incluir cosas que no tendrían sentido para algunos de los elementos de $\Omega$ . Por ejemplo, si $\Omega$ consiste en todas las distribuciones t de Student, entonces la media es no una propiedad válida para $\Omega$ (porque $t_1$ no tiene media). Esto nos hace ver una vez más cuánto dependen nuestras ideas de lo que $\Omega$ realmente consiste en.
Las propiedades no siempre son parámetros
Una propiedad puede ser una función tan complicada que no serviría como parámetro. Consideremos el caso de la "distribución normal". Podríamos querer saber si la media de la distribución verdadera, cuando se redondea al número entero más cercano, es par. Eso es una propiedad. Pero no servirá como parámetro.
Los parámetros no son necesariamente propiedades
Cuando los parámetros y las distribuciones están en correspondencia uno a uno, entonces obviamente cualquier parámetro, y cualquier función de los parámetros para el caso, es una propiedad según nuestra definición. Pero no es necesario que haya una correspondencia unívoca entre los parámetros y las distribuciones: a veces algunas distribuciones deben ser descritas por dos o más valores distintos de los parámetros. Por ejemplo, un parámetro de localización de puntos en la esfera utilizaría naturalmente la latitud y la longitud. Eso está bien, excepto en los dos polos, que corresponden a una latitud y una longitud determinadas. tout longitud válida. El ubicación (punto en la esfera) es efectivamente una propiedad, pero su longitud no es necesariamente una propiedad. Aunque hay varias evasivas (basta con declarar que la longitud de un polo es cero, por ejemplo), esta cuestión pone de manifiesto la importante diferencia conceptual entre un propiedad (que se asocia exclusivamente a una distribución) y un parámetro (que es una forma de etiquetar la distribución y podría no ser única).
Procedimientos estadísticos
El objetivo de una estimación se llama estimand . Es simplemente una propiedad. El estadístico es no libre de seleccionar el estimando: eso es competencia de su cliente. Cuando alguien acude a usted con una muestra de una población y le pide que estime el percentil 99 de la población, probablemente sería negligente si le proporcionara un estimador de la media. Su trabajo, como estadístico, es identificar un buen procedimiento para estimar la estimación que se le ha dado. (A veces tu trabajo consiste en convencer a tu cliente de que ha seleccionado el estimando equivocado para sus objetivos científicos, pero eso es otro tema...)
Por definición, un procedimiento es una forma de obtener un número a partir de los datos. Los procedimientos suelen darse como fórmulas que se aplican a los datos, como "sumarlos todos y dividirlos por su número". Literalmente tout se puede pronunciar un "estimador" de un estimando dado. Por ejemplo, podría declarar que la media de la muestra (una fórmula aplicada a los datos) estima la varianza de la población (una propiedad de la población, suponiendo que nuestro cliente ha restringido el conjunto de poblaciones posibles $\Omega$ para incluir sólo los que realmente tienen desviaciones).
Estimadores
Un estimador no necesita tener ninguna conexión obvia con el estimando. Por ejemplo, ¿ves alguna relación entre la media de la muestra y la varianza de la población? Yo tampoco. Sin embargo, la media de la muestra es un buen estimador de la varianza de la población. para ciertos $\Omega$ (como el conjunto de todas las distribuciones de Poisson). Aquí reside una de las claves para entender los estimadores: sus cualidades dependen del conjunto de estados posibles $\Omega$ . Pero eso es sólo una parte.
Un estadístico competente querrá saber cuál es el rendimiento real del procedimiento que recomienda. Llamemos al procedimiento " $t$ "y que el estimando sea $\theta$ . Al no saber qué distribución es la verdadera, contemplará la realización del procedimiento para todas las distribuciones posibles $F \in \Omega$ . Teniendo en cuenta esta $F$ y dado cualquier resultado posible $s$ (es decir, un conjunto de datos), comparará $t(s)$ (lo que su procedimiento estima) a $\theta(F)$ (el valor del estimando para $F$ ). Es responsabilidad de su cliente decirle lo cerca o lejos que están esos dos. (Esto se suele hacer con una función de "pérdida".) A continuación, puede contemplar la expectativa de la distancia entre $t(s)$ y $\theta(F)$ . Esta es la riesgo de su procedimiento. Porque depende de $F$ el riesgo es una función definida en $\Omega$ .
Los estadísticos (buenos) recomiendan procedimientos basados en la comparación de riesgos. Por ejemplo, supongamos que para cada $F \in \Omega$ el riesgo del procedimiento $t_1$ es menor o igual que el riesgo de $t$ . Entonces no hay razón para usar nunca $t$ : es "inadmisible". En caso contrario, es "admisible".
(Un estadístico "bayesiano" se siempre comparar los riesgos promediando sobre una distribución "a priori" de los posibles estados (normalmente suministrada por el cliente). Un estadístico "frecuentista" podría hacer esto, si tal prioridad existe justificadamente, pero también está dispuesto a comparar riesgos de otras maneras que los bayesianos evitan).
Conclusiones
Tenemos derecho a decir que cualquier $t$ que es admisible para $\theta$ es un estimador de $\theta$ . A efectos prácticos (porque los procedimientos admisibles pueden ser difíciles de encontrar), tenemos que doblar esto para decir que tout $t$ que tiene un riesgo aceptablemente pequeño (cuando se compara con $\theta$ ) entre los procedimientos practicables es un estimador de $\theta$ . "Aceptablemente" y "practicable" los determina el cliente, por supuesto: "aceptablemente" se refiere a su riesgo y "practicable" refleja el coste (finalmente pagado por ellos) de aplicar el procedimiento.
En esta concisa definición subyacen todas las ideas que acabamos de exponer: para entenderla debe tener en mente un $\Omega$ (que es un modelo del problema, proceso o población en estudio), un estimando definido (suministrado por el cliente), una función de pérdida específica (que conecta cuantitativamente $t$ a la estimación y también la da el cliente), la idea de riesgo (calculada por el estadístico), algún procedimiento para comparar las funciones de riesgo (responsabilidad del estadístico en consulta con el cliente), y un sentido de los procedimientos que realmente pueden llevarse a cabo (la cuestión de la "practicabilidad"), aunque ninguno de ellos se menciona explícitamente en la definición.