24 votos

¿Por qué utilizamos el término "población" en lugar de "proceso de generación de datos"?

Siempre me ha confundido el uso del término "población" en estadística. En mi primer curso de estadística me enseñaron que necesitamos una muestra, porque encuestar a toda la población es demasiado costoso. Así que existe la población total y existe una pequeña muestra de la misma que estudiamos.

El problema es que esta intuición es simplemente errónea fuera de unos pocos ejemplos de juguete, cuando la población es literalmente toda la población de EE.UU. (o del mundo). En realidad, incluso en esos pocos ejemplos es probablemente errónea, ya que la población mundial es sólo una de las hipotéticas muestras aleatorias repetidas de la DGP. Así que cuando en los siguientes cursos de estadística empezamos a estimar modelos multivariantes, me costaba entender qué es ahora la población y en qué se diferencia de la muestra.

Así que estoy realmente confundido por la forma en que se enseña la estadística. Creo que la gente utiliza el término "población" en parte por razones históricas y en parte porque así es más fácil explicar el concepto de muestra en Estadística 101. El problema es que enseña una intuición errónea que los estudiantes tienen que desaprender la mayoría de las veces. El problema es que enseña una intuición errónea, que los estudiantes tienen que desaprender más tarde y crea un agujero en la comprensión de los conceptos estadísticos más fundamentales. Por otra parte, el concepto de DGP es más difícil de introducir en el curso elemental de estadística, pero una vez que los estudiantes lo entiendan, tendrán una base conceptual sólida en estadística.

Tengo dos preguntas:

  1. Supongo que hay un debate en curso entre los estadísticos sobre esta cuestión, así que ¿alguien puede darme referencias al respecto?

  2. Y lo que es más importante, ¿conoce algún ejemplo de libro de texto de estadística de nivel introductorio que prescinda de la "población" e introduzca la estadística basándose en los conceptos de DGP y muestra? Lo ideal sería que un libro de texto de este tipo dedicara mucho espacio a explicar los fundamentos conceptuales de la estadística y la inferencia estadística.

14voto

Aaron Puntos 36

Sin duda, ya hay muchos contextos en los que los estadísticos se refieren a una proceso en lugar de una población cuando se habla de análisis estadístico (por ejemplo, cuando se habla de un proceso de series temporales, un proceso estocástico, etc.). Formalmente, un proceso estocástico es un conjunto de variables aleatorias con un dominio común, indexado sobre algún conjunto de valores. Esto incluye series temporales, secuencias de variables aleatorias, etc. El concepto es lo suficientemente general como para abarcar la mayoría de las situaciones en las que tenemos un conjunto de variables aleatorias que son de interés en un problema estadístico, por lo que la estadística ya dispone de un lenguaje suficientemente desarrollado para referirse a "procesos" estocásticos hipotéticos, y también para referirse a "poblaciones" reales de cosas.

Aunque los estadísticos se refieren a los "procesos" y los modelizan, se trata de abstracciones que se forman considerando secuencias infinitas (o continuos) de variables aleatorias, por lo que implican hipotetizar cantidades que no son todas observables. El término "proceso generador de datos" es en sí mismo problemático (y no tan útil como la terminología existente de "proceso estocástico"), y no veo ninguna razón por la que su amplia utilización añadiría una mayor comprensión a la estadística. En concreto, al referirse a la generación de "datos", esta terminología se adelanta a la cuestión de qué cantidades son realmente observadas u observables. (Imaginemos una situación en la que queremos referirnos a un "DGP" pero luego estipulamos que algún aspecto de ese proceso no es directamente observable. ¿Sigue siendo apropiado llamar "datos" a los valores de ese proceso si no son observables?). En cualquier caso, dejando a un lado la terminología, veo problemas más profundos en tu planteamiento, que se remontan a cuestiones de base en filosofía y en la formulación de preguntas de investigación.


Existencias frente a procesos en la investigación empírica: Veo una serie de premisas en su punto de vista que me parecen problemáticas, y me parece que malinterpretan el objetivo de la mayoría de las investigaciones empíricas que utilizan estadísticas. Cuando emprendemos una investigación empírica, a menudo queremos conocer las relaciones entre cosas que existen en la realidad y no "procesos" hipotéticos que sólo existen en nuestros modelos (es decir, como abstracciones matemáticas de la realidad). De hecho, en los problemas de muestreo suele darse el caso de que sólo deseamos estimar algún aspecto de la distribución de alguna cantidad perteneciente a una población finita. En este contexto, cuando nos referimos a una "población" de interés, no hacemos más que designar un conjunto de cosas que nos interesan en un problema de investigación concreto. En consecuencia, si actualmente estamos interesados en todas las personas que viven en EE.UU., llamaríamos a este grupo la "población" (o la "población de interés"). Sin embargo, si sólo nos interesan las personas que viven actualmente en Maine, llamaremos "población" a este grupo más pequeño. En cada caso, no importa si la población puede considerarse sólo una parte de un grupo mayor: si es el grupo de interés en el presente problema, entonces lo designaremos como "población".

(Observo que los textos estadísticos suelen incurrir en un ligero equívoco entre la población de objetos de interés, y la medidas de interés relativas a esos objetos. Por ejemplo, un análisis sobre la estatura de las personas puede referirse en varios momentos al conjunto de personas como "la población", pero luego referirse al conjunto correspondiente de medidas de estatura como "la población". Se trata de una abreviatura que permite a los estadísticos pasar directamente a describir un conjunto de números de interés).

Su planteamiento filosófico no concuerda con este objetivo. Parece que adoptas una especie de visión platónica del mundo, en la que las entidades del mundo real se consideran menos reales que algún "proceso generador de datos" hipotético que (presuntamente) generó el mundo. Por ejemplo, con respecto a la idea de referirse a todos los habitantes de la Tierra como una "populuación", usted afirma que "...probablemente sea erróneo, ya que la población mundial es sólo una de las hipotéticas muestras aleatorias repetidas del DGP". Esto guarda una similitud sustancial con la afirmación de Platón teoría de las formas donde Platón consideraba la observación del mundo como una mera observación imperfecta de las Formas eternas. En mi opinión, un enfoque mucho mejor es el aristolélico, según el cual las cosas de la realidad existen y nosotros hacemos abstracción de ellas para formar nuestros conceptos. (Esto es una simplificación de Aristóteles, pero se capta la idea básica). $^\dagger$

Plato and Aristotle

Si quiere adentrarse en la literatura sobre esta cuestión, creo que encontrará que se adentra más en el territorio de la filosofía (concretamente en la metafísica y la epistemología), que en el campo de la estadística. Esencialmente, tus puntos de vista aquí se refieren a la cuestión más amplia de si las cosas que existen en la realidad son los objetos propios de relevancia para el conocimiento humano, o si (por el contrario) son meramente un epifenómeno de algún "proceso" hipotético más amplio que es el objeto propio de la inferencia humana. Se trata de una cuestión filosófica que ha ocupado un lugar destacado en la historia de la filosofía occidental desde Platón y Aristóteles. enorme literatura que potencialmente podría arrojar luz sobre esto.

Espero que esta respuesta le permita iniciar un interesante viaje por el campo de la epistemología. Para los fines que nos ocupan, quizá desee adoptar un punto de vista práctico que tenga en cuenta también los objetivos que los investigadores se marcan en sus investigaciones. Pregúntese: ¿preferirían los investigadores en general conocer las propiedades de las personas que viven en la Tierra, o preferirían tratar de averiguar sobre sus (hipotéticas) "hipotéticas muestras aleatorias repetidas" de personas que podrían haber vivido en la Tierra en lugar de nosotros?


$^\dagger$ Para evitar cualquier posible confusión entre quienes carezcan de conocimientos históricos, tenga en cuenta que no se trata de citas reales de Platón y Aristóteles; simplemente me he tomado una licencia poética para asemejar sus posturas filosóficas al tema que nos ocupa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X