89 votos

¿Qué son las "grandes problemas" en las estadísticas?

La matemática tiene sus famosos Problemas del Milenio (y, históricamente, Hilbert 23), las preguntas que ayudaron a dar forma a la dirección del campo.

Tengo poca idea, sin embargo, lo que la Hipótesis de Riemann y P vs NP de estadísticas sería.

Así que, ¿cuáles son las generales preguntas abiertas en las estadísticas?

Editado para añadir: Como un ejemplo del espíritu general (si bien no es de especificidad) de la respuesta que estoy buscando, me encontré con un "de Hilbert 23"inspirado en conferencia de David Donoho en un "Retos matemáticos del Siglo 21" conferencia: Datos de Alta dimensión de Análisis: Las Maldiciones y las Bendiciones de la Dimensionalidad

Así, un potencial de respuesta podría hablar de big data y por qué es importante, los tipos de estadística retos de datos de alta dimensión plantea, y los métodos que deben ser desarrolladas o preguntas que necesitan ser respondidas con el fin de ayudar a resolver el problema.

52voto

jldugger Puntos 7490

Una gran pregunta que debe involucrar a los principales problemas de la metodología estadística o, dado que la estadística es completamente acerca de las aplicaciones, se debe la preocupación de cómo la estadística se utiliza con problemas importantes para la sociedad.

Esta caracterización sugiere la siguiente, debe incluirse en el examen de los grandes problemas:

  • Cómo mejor para llevar a cabo los ensayos de medicamentos. En la actualidad, la clásica prueba de hipótesis requiere de muchos formal de las fases de estudio. En posteriores (confirmatoria) fases, las económicas y las cuestiones éticas son grandes. Podemos hacer mejor? ¿Tenemos que poner cientos o miles de personas enfermas en los grupos de control y mantenerlos allí hasta el final de un estudio, por ejemplo, o podemos encontrar mejores formas de identificar los tratamientos que realmente funcionan y entregarlos a los miembros de la prueba (y otros) antes?

  • Afrontamiento con científicos de sesgo de publicación. Los resultados negativos se publican mucho menos, simplemente porque ellos simplemente no alcanzar una magia p-valor. Todas las ramas de ciencias de la necesidad de encontrar mejores formas de llevar científicamente importante, no sólo estadísticamente significativas, los resultados a la luz. (El problema de las comparaciones múltiples y de lidiar con los datos de alta dimensión son subcategorías de este problema).

  • Sondear los límites de los métodos estadísticos y sus interfaces con el aprendizaje de máquina y de la máquina de la cognición. Inevitable avances en la tecnología de computación se hace cierto AI accesible en nuestras vidas. ¿Cómo vamos a programa de cerebros artificiales? ¿Qué papel podría pensamiento estadístico estadístico y de aprendizaje en la creación de estos avances? Cómo pueden los estadísticos de ayuda en la forma de pensar acerca de artificial de la cognición, artificial de aprendizaje, en la exploración de sus limitaciones, y avanzar?

  • El desarrollo de mejores formas de analizar los datos geoespaciales. Con frecuencia se afirma que la mayoría, o la gran mayoría, de las bases de datos contienen referencias de localización. Pronto muchas personas y de los dispositivos se encuentra en tiempo real con GPS y teléfono celular tecnologías. Métodos estadísticos para analizar y explotar datos espaciales en realidad sólo están en su infancia (y parece ser relegado a las indicaciones geográficas y espaciales de software que se utiliza normalmente por los no estadísticos).

31voto

Chris Bunch Puntos 639

Michael Jordan tiene un breve artículo llamado ¿cuáles son los Problemas Abiertos en la Estadística Bayesiana?, en el que se encuestó a un montón de estadísticos para sus puntos de vista sobre los problemas abiertos en las estadísticas. Lo voy a resumir (aka, copiar y pegar) un poco aquí, pero es probablemente mejor leer el original.

Nonparametrics y semiparametrics

  • ¿Para qué problemas se Bayesiano nonparametrics útil y vale la pena?
  • David Dunson: "no Paramétrica de Bayes modelos de participación de un número infinito de parámetros y de los priores son normalmente elegidos por conveniencia con hyperparameters establecido en aparentemente razonable de los valores sin el adecuado objetivo o subjetivo de la justificación."
  • "Fue observado por varias personas que uno de los atractivos de las aplicaciones de frecuentista nonparametrics es semiparamétrico de inferencia, donde el test no paramétrico de componente del modelo es una molestia parámetro. Estas personas sintieron que sería conveniente precisar el (frecuentista) teoría de la Bayesiano semiparametrics."

Los priores

  • "Elicitación sigue siendo una fuente importante de problemas abiertos."
  • 'Aad van der Vaart se volvió objetivo de Bayes en su cabeza y señaló una falta de teoría para "situaciones en las que uno quiere que el antes de venir a través en la parte posterior" como opuesto a "simplemente proporcionar un enfoque Bayesiano para el suavizado."'

Bayesiano/frecuentista relaciones

  • "Muchos de los que respondieron expresaron un deseo de forjar Bayesiano/frecuentista relaciones. Este fue el más comúnmente se evidencia en el contexto de grandes dimensiones y modelos de datos, donde no sólo es subjetiva enfoques para la especificación de los priores difícil de implementar, pero priores de comodidad puede ser muy engañoso".
  • 'Algunos de los encuestados consumía para no asintótica en la teoría de que podría revelar más plenamente las supuestas ventajas de Bayesiana métodos; por ejemplo, David Dunson: "a Menudo, la frecuentista tasa óptima se obtiene por procedimientos que claramente no es mucho peor en muestras finitas de Bayesiana enfoques."'

El cálculo y la estadística

  • Alan Gelfand: "Si MCMC ya no es viable para los problemas de la gente desea abordar, entonces, ¿cuál es el papel de la INLA, de métodos variacionales, de ABC enfoques?"
  • "Varios de los encuestados pidió una más completa integración de la ciencia computacional y estadístico de la ciencia, señalando que el conjunto de inferencias que uno puede llegar en cualquier situación dada de forma conjunta en función del modelo, la previa, los datos y los recursos de computación, y que deseen más explícita de la gestión de las compensaciones entre estas cantidades. De hecho, Rob Kass planteado la posibilidad de una noción de "inferencial solvencia," donde algunos de los problemas que se entiende más allá de la esperanza (por ejemplo, la selección del modelo de regresión, donde "por cantidades modestas de los datos objeto de no trivial de ruido es im - posible conseguir útil de los intervalos de confianza acerca de los coeficientes de regresión cuando hay un gran número de variables cuya presencia o ausencia en el modelo no se ha especificado a priori"), y donde hay otros problemas ("ciertas funcionales para que útil con - fidence existen intervalos") para el que no hay esperanza."
  • "Varios de los encuestados, mientras se disculpa por una cierta vaguedad, expresa un sentimiento de que una gran cantidad de datos no implica necesariamente una gran cantidad de cálculo; más bien, de que de alguna manera inferencial de la fuerza presente en los grandes datos de transferencia para el algoritmo y hacer posible hacerlo con menos computacional pasos para lograr una satisfactoria (aproximado) inferencial de la solución".

Selección del modelo y Pruebas de Hipótesis

  • George Casella: "ahora vamos a hacer de selección de modelo, pero Bayesians no parecen preocuparse acerca de las propiedades de basar la inferencia en el modelo seleccionado. Lo que si es malo? ¿Cuáles son las consecuencias de la configuración creíble regiones para un determinado parámetro β1 cuando se ha seleccionado el modelo equivocado? Podemos tener procedimientos con algún tipo de garantía?"
  • Necesidad de trabajar más en la decisión de la teoría de las fundaciones en el modelo de selección.
  • David Spiegelhalter: "la mejor manera de hacer las comprobaciones anteriores/conflicto de datos en una parte integral del análisis Bayesiano?"
  • Andrew Gelman: "Para la comprobación del modelo, de una clave de un problema abierto es el desarrollo de herramientas gráficas para la comprensión y comparación de modelos. Los gráficos no es sólo para los datos en bruto; por el contrario, complejo Bayesiano de modelos dan la oportunidad para la mejor y más eficaz de análisis exploratorio de datos."

15voto

BBlake Puntos 310

No estoy seguro de lo grandes que son, pero hay una página de la Wikipedia para los problemas no resueltos en las estadísticas.

7voto

Chris Bunch Puntos 639

Como un ejemplo del espíritu general (si bien no es de especificidad) de la respuesta que estoy buscando, me encontré con un "de Hilbert 23"inspirado en conferencia de David Donoho en un "Retos matemáticos del Siglo 21" conferencia:

De Datos de alta dimensión de Análisis: Las Maldiciones y las Bendiciones de la Dimensionalidad

5voto

simmosn Puntos 304

Usted puede comprobar fuera de Harvard, "Duro de Problemas en las Ciencias Sociales" coloquio que se celebró a principios de este año. Varias de estas charlas ofrecer problemas en el uso de la estadística y la creación de modelos en las ciencias sociales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X