21 votos

¿Cuál es la diferencia entre estadísticas descriptivas e inferenciales?

Mi entendimiento era que las estadísticas descriptivas describían cuantitativamente características de una muestra de datos, mientras que las estadísticas inferenciales hacían inferencias sobre las poblaciones de las cuales se extrajeron las muestras.

Sin embargo, la página de wikipedia sobre inferencia estadística afirma:

En su mayor parte, la inferencia estadística hace proposiciones sobre poblaciones, utilizando datos extraídos de la población de interés a través de algún tipo de muestreo aleatorio.

El "en su mayor parte" me ha hecho pensar que quizás no entiendo correctamente estos conceptos. ¿Existen ejemplos de estadísticas inferenciales que no hagan proposiciones sobre poblaciones?

0 votos

Estadísticas descriptivas: Una moneda fue lanzada diez veces y salió cara seis veces. Inferencia estadística: La estimación de máxima verosimilitud de la probabilidad de que salga cara es $0.6$, o, Esta información es insuficiente para rechazar la hipótesis de que la moneda es justa.

2 votos

Inferencia sin el concepto de "población": Suponga que sus datos son generados por algún mecanismo/ regla aleatoria (parcialmente) desconocido. Los métodos inferenciales permiten evaluar las propiedades de este mecanismo basándose en los datos. Ejemplo: desea verificar una fórmula electrofísica basada en resultados que solo se pueden medir aproximadamente o bajo condiciones imperfectas.

1 votos

@Michael: Sí; o de hecho haz que tus datos sean generados por un mecanismo aleatorio conocido - asignación aleatoria de tratamientos experimentales.

22voto

Eric Davis Puntos 1542

Viniendo de un fondo en ciencias del comportamiento, asocio esta terminología particularmente con libros de texto de estadística introductoria. En este contexto, la distinción es la siguiente:

  • Estadística descriptiva son funciones de los datos de la muestra que son intrínsecamente interesantes para describir alguna característica de los datos. Las estadísticas descriptivas clásicas incluyen la media, mínimo, máximo, desviación estándar, mediana, sesgo, y curtosis.
  • Estadística inferencial son funciones de los datos de la muestra que te ayudan a sacar una inferencia acerca de una hipótesis sobre un parámetro poblacional. Las estadísticas inferenciales clásicas incluyen z, t, $\chi^2$, razón F, etc.

El punto importante es que cualquier estadística, inferencial o descriptiva, es una función de los datos de la muestra. Un parámetro es una función de la población, donde el término población es lo mismo que decir el proceso de generación de datos subyacente.

Desde esta perspectiva, el estatus de una función dada de los datos como estadística descriptiva o inferencial depende del propósito para el cual la estés utilizando.

Dicho esto, algunas estadísticas son claramente más útiles para describir características relevantes de los datos, y algunas son más adecuadas para ayudar en la inferencia.

  • Estadística inferencial: Estadísticas de prueba estándar como t y z, para un determinado proceso de generación de datos, donde la hipótesis nula es falsa, el valor esperado está fuertemente influenciado por el tamaño de la muestra. La mayoría de los investigadores no verían tales estadísticas como estimaciones de un parámetro poblacional de interés intrínseco.
  • Estadística descriptiva: En contraste, las estadísticas descriptivas sí estiman parámetros poblacionales que suelen ser de interés intrínseco. Por ejemplo, la media muestral y la desviación estándar proporcionan estimaciones de los parámetros poblacionales equivalentes. Incluso las estadísticas descriptivas como el mínimo y el máximo proporcionan información sobre parámetros poblacionales equivalentes o similares, aunque por supuesto en este caso se requiere mucha más precaución. Además, muchas estadísticas descriptivas podrían ser sesgadas o de otra manera no ser estimadores ideales. Sin embargo, aún tienen alguna utilidad en la estimación de un parámetro poblacional de interés.

Por lo tanto, desde esta perspectiva, las cosas importantes a entender son:

  • estadística: función de los datos de la muestra
  • parámetro: función de la población (proceso generador de datos)
  • estimador: función de los datos de la muestra utilizada para proporcionar una estimación de un parámetro
  • inferencia: proceso de llegar a una conclusión sobre un parámetro

Por lo tanto, podrías definir la distinción entre descriptiva e inferencial basada en la intención del investigador que usa la estadística, o podrías definir una estadística en función de cómo se utiliza típicamente.

0 votos

¿Cómo se justifica llamar a los scores de t o F (en lugar de, por ejemplo, pruebas de t-tests) estadísticas inferenciales?

0 votos

@jona El t-score es la "estadística" que se utiliza en la prueba t, por lo tanto, se podría describir el t-score como una estadística inferencial cuando se utiliza como parte de dicho proceso inferencial. Supongo que he comenzado con la suposición de que una estadística es una función de los datos. Pero tal vez estás aludiendo al punto de que a menudo pensamos en las estadísticas inferenciales como el conjunto más amplio de técnicas utilizadas para hacer inferencias.

0 votos

Déjame reformularlo: ¿no es una t-estadística una descripción de una muestra, en lugar de una afirmación inferencial (como un valor p)?

8voto

jasonmray Puntos 1303

Una forma de inferencia se basa en la asignación aleatoria de tratamientos experimentales, y no en el muestreo aleatorio de una población (incluso hipotéticamente). Oscar Kempthorne fue un defensor.

El primer ejemplo en Edgington (1995), Randomization Tests ilustra bien el enfoque. Un investigador obtiene diez sujetos, los divide en dos grupos al azar, asigna el tratamiento $A$ a un grupo y $B$ al otro, mide sus respuestas y calcula el estadístico t de Student para la diferencia en las medias de los grupos. En lugar de usar la teoría de muestreo normal para evaluar la significancia, calcula $t$ para todas las posibles formas en que los tratamientos podrían haber sido asignados (hay 252); luego, observando que cada permutación es igualmente probable bajo la hipótesis nula de que no hay efecto del tratamiento, ve que nueve dan un valor más alto de $t$ que el observado y calcula un valor p de $10/252=0.04. "Obtiene" aquí, como muy a menudo, podría significar cualquier cosa, quizás los primeros diez universitarios en su clase que levantaron la mano fueron seleccionados, pero con este análisis no es necesario mantener la pretensión de que los sujetos fueron muestreados aleatoriamente de la población de interés (lo negativo es que cualquier generalización más allá de estos diez es extra-estadística).

La predicción es otra área donde no necesariamente se formulan proposiciones sobre poblaciones. (No sé si a todo el mundo le gustaría llamar a la predicción "inferencia", pero está Geisser (1993), Predictive Inference: An Introduction). A menudo la predicción surge de un modelo de población ajustado, pero no siempre; por ejemplo el ejemplo de clasificación de @Matt, promedio de modelos (bayesianos o basados en pesos de Akaike) o algoritmos de pronóstico como el alisado exponencial.

NB Creo que "estadísticas inferenciales vs descriptivas" se refiere más a menudo a la disciplina de Estadística, en lugar de a cantidades calculadas a partir de muestras. No hay una diferencia esencial entre una estadística inferencial y descriptiva; como señaló @Jeremy, es cuestión de cómo la estás utilizando.

2voto

Rob Allen Puntos 486

No estoy seguro de que la clasificación necesariamente haga una declaración sobre la(s) población(es) de la que se extraen los datos. La clasificación, como probablemente sabes, utiliza datos de entrenamiento que consisten en algunos vectores de "características", cada uno etiquetado con una clase específica, para predecir las etiquetas de clase pertenecientes a otros vectores de características no etiquetados. Por ejemplo, podríamos usar los signos vitales de un paciente y el diagnóstico de un médico para predecir si otros pacientes están sanos o enfermos.

Algunos clasificadores, llamados "clasificadores generativos", intentan modelar explícitamente las poblaciones o el proceso generador de datos que produce cada clase. Por ejemplo, el algoritmo Naive Bayes calcula $P(\textrm{clase}=c|\textrm{características})$ para cada clase $c$, asumiendo que las características son todas independientes. Estos modelos podrían razonablemente ser vistos como declaraciones sobre la población.

Sin embargo, otros clasificadores buscan diferencias entre las clases sin modelar las clases mismas; estos se llaman clasificadores discriminativos. Un ejemplo clásico es el clasificador del vecino más cercano, que asigna un ejemplo no etiquetado a la clase de su vecino más cercano (donde cercano se define de alguna manera sensata para el problema). Esto no parece contener mucha, si acaso, información sobre las poblaciones de las que se extrajeron los datos.

Si estás interesado en la diferencia entre estadísticas descriptivas e inferenciales, podría ser más fructífero pensar en el propósito del análisis. Una estadística descriptiva, como la media, podría decirte cuántas truchas hay en un lago típico - describen algo. Una estadística inferencial, como una prueba $t$, podría decirte si típicamente hay más truchas que lobinas en esos lagos - te permite hacer una afirmación sobre una estadística descriptiva.

0voto

Serhat Özgel Puntos 10010

En una línea, dados los datos, las estadísticas descriptivas intentan resumir el contenido de tus datos con la mínima pérdida de información (dependiendo de qué medida utilices). Puedes ver la geografía de los datos. (Algo así como ver el gráfico de rendimiento de la clase y decir quién está en la cima, en el fondo, etc.)

En una línea, dados los datos, intentas estimar e inferir las propiedades de la población hipotética de la cual provienen los datos. (Algo así como entender a los estudiantes de séptimo grado a través de una buena muestra de la clase, asumiendo que la población subyacente es lo suficientemente grande como para no poder tenerlos en cuenta en su totalidad)

4 votos

No creo que sea una definición o caracterización de la estadística descriptiva que busquen la mínima pérdida de información. Es completamente posible tener estadísticas descriptivas que dejen fuera detalles realmente importantes y eso suele ser un problema.

0voto

rubiii Puntos 1323

En resumen

Estadística descriptiva es el análisis de datos que describen, muestran o resumen los datos de manera significativa; simplemente es una forma de describir nuestros datos/hablar sobre toda la población. Algunas de ellas son Medidas de tendencia central y Medidas de dispersión

Estadística inferencial es una técnica que nos permite usar muestras para hacer generalizaciones sobre las poblaciones de las cuales se extrajeron las muestras. Por ejemplo, la prueba de hipótesis y

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X