5 votos

¿Cuál es la diferencia entre los métodos frecuentistas clásicos y los métodos de verosimilitud?

Usted puede pensar que yo estoy familiarizado con el material en Casella y Berger.

Esta pregunta es idéntica a la de ¿Cuál es la diferencia entre Fisherian vs frecuentista estadísticas?; sin embargo, la pregunta fue cerrado por la ambigüedad y no tiene respuestas.

Hablo de "probabilidad de métodos" en el contexto del texto En Toda la Probabilidad: Modelización Estadística y el Uso de la Inferencia de Probabilidad por Pawitan. A decir verdad, sólo he desnatada en este texto un par de veces.

Aquí está la descripción del texto en Amazon [énfasis añadido]:

Basada en un curso en la teoría de las estadísticas de este texto se concentra en lo que puede lograrse con el uso de la probabilidad/Fisherian método de teniendo en cuenta la incertidumbre a la hora de estudiar un problema estadístico. Es toma el concepto de ot la probabilidad como la provisión de los mejores métodos para unificación de las demandas de la modelación estadística y la teoría de la la inferencia. Cada probabilidad concepto es ilustrado por los realistas ejemplos, que no se encuentran en riesgo por problemas de cálculo. Los ejemplos van desde un símil comparación de dos tasas de accidentes, a complejo de estudios que requieren lineal generalizado o semiparamétricos la modelización.

El énfasis es que la probabilidad no es simplemente un dispositivo para producir una estimación, pero en una importante herramienta para el modelado. El libro en general toma un enfoque de carácter informal, donde los resultados más importantes son establecido el uso de la heurística argumentos y motivado realista ejemplos. Con los disponibles en la actualidad de la potencia de computación, algunos ejemplos son no se las ingenió para permitir una solución analítica cerrada, y el libro puede concentrarse en los aspectos estadísticos de la modelización de datos. En además de la clásica de la teoría de la probabilidad, el libro abarca muchos moderna temas tales como modelos lineales generalizados y modelos mixtos, no paramétrico de suavizado, la robustez, el algoritmo EM y empírica la probabilidad.

También, la reseña de "MathsEngineer" los estados [énfasis agregado]:

Como practicante analista de datos, muchas veces me encuentro a la norma "clásica" técnicas estadísticas inútiles, incómodos, o complicado para todos, pero la mayoría de las aplicaciones sencillas. Sin embargo, antes de ejecutar todo el libro, pensé que mi única opción sería ser utilizar métodos Bayesianos (que son infinitamente más flexible y elegante) para realizar la inferencia compleja, no-normal/no-lineal modelos. Por desgracia, la resolución Bayesiano de modelos se basa en dos más poco atractivo conceptos: una probabilidad anterior (para que todos sus los cálculos todavía probabilidades de rendimiento),y la Cadena de Markov de Monte Carlo (un computacionalmente intensivo, a veces no son convergentes, algoritmo que es sólo asintóticamente correcta respecto de la verdadera Bayesiano posterior distribución de probabilidad.)

Leyendo el Dr. Pawitan del libro, me presentó a una muy satisfactorio "tercer camino", como él lo llama. En lugar de la fuerza de ajuste todos incertidumbre en un probabilidad, la "probabilidad" enfoque reconoce dos tipos de la incertidumbre, que es a la vez novela en estadísticas y extremadamente refrescante una vez que usted entienda por qué dos tipos son necesarios. La primera, lo que yo llamaría "calibrada" incertidumbre", que es similar a una intervalo de confianza para la media de una muestra normal. Con este tipo de sabemos con qué frecuencia le gustaría ser incorrectas en muestreo repetido de este de la población, por lo que tenemos una buena idea de lo bien que nuestro método de los soportes de la true significa decir, bien calibrada.

Como me descremada a través del índice, mucho de esto se ve como las estadísticas material en Casella y Berger (que tiene mucho más de un frecuentista de Bayesiana énfasis), así como algunos de los modelos lineales (con matrices). Por lo tanto, no veo cómo es esto diferente de frecuentista "clásica" de las estadísticas.

Entiendo las diferencias filosóficas entre frecuentista y Bayesiana de las estadísticas, pero esto de "probabilidad" enfoque no estoy tan familiarizado con. Podría alguien elaborar sobre esto?

3voto

alexs77 Puntos 36

Lejos de ser una respuesta completa (o un libro):

La mayoría si no todos los frecuentista técnicas son diversas formas de método de los momentos estimadores: $\hat{\beta}: 0 = \sum_{i=1}^n S_i(\hat{\beta})$ cuando la $S_i$ es simplemente una función que sabe que le va a cero cuando se estima una cosa que usted desea. El $S$ se llama una estimación de la función y la solución de suma cero es una ecuación de estimación. Expresar lo que usted desea estimar como una estimación de la función y acaba de resolver. Cuando la muestra es IID, la estimación de funciones son independientes RVs con los no-singular variaciones, han asintótica propiedades que pueden ser resueltos analíticamente o el uso de la delta-método para encontrar variaciones en los coeficientes.

Algunos frecuentista ejemplos que no están ML: a menudo nos interpretar los mínimos cuadrados coeficiente como una pendiente. ¿Por qué no acaba de calcular todos los pares de pendientes? Resolver la ecuación de estimación $0 = \hat{\beta}-\sum_{i=1}^n \sum_{j=1}^n (Y_i - Y_j)/(X_i - X_j) \mathcal{I}(i \ne j)$. La mediana de estimadores son insesgados frecuentista, pero no de máxima verosimilitud $0 = P(Y > X\hat{\beta}) - P(Y < X \hat{\beta})$. Muchas preguntas sobre CV en sí mismo con el ajuste de modelos de regresión logística a $Y$ observado como una proporción. No hay nada de malo con la configuración de la $Y$ en la estimación de la ecuación de regresión logística: $0 = \mathbf{D}^T \mathbf{V}^{-1} \left( Y - g(\mathbf{X}\hat{\beta}\right))$ donde $g$ es la inversa logit, $V_{ii} = g(X\beta)(1-g(X\beta))$$\mathbf{D}^T = \frac{\partial}{\partial \beta} g(\mathbf{X}\beta)$.

Una más de la clase de estimadores llamado minimax estimadores en última instancia conducir a la estimación de las ecuaciones cuando la función de pérdida es suave. Minimax también tiene una gran cantidad de solapamiento con ML.

Siempre de máxima verosimilitud es un habitual exponencial de la familia, la puntuación de la función (registro de probabilidad) es una ecuación de estimación. La raíz de la puntuación de la ecuación maximiza el (log) probabilidad: $0 = \sum_{i=1}^n S_i(\hat{\beta}) = \sum_{i=1}^n \frac{\partial}{\partial \beta} \log \mathcal{L}(\hat{\beta}; \mathbf{X}_{i,}, Y_i)$

Sin embargo, muchas de las probabilidades no se prestan fácilmente a la estimación de ecuaciones: los modelos con los datos que faltan, los modelos con errores de medición, binomial negativo de modelos, modelos de mezcla, censurado exponencial de los resultados de supervivencia, y Gaussian mixture models son todos los estimados por el algoritmo EM o de integración numérica. En esas circunstancias, la pérdida de información de la complejidad de los datos de proceso de observación fue recuperado por el supuesto de un modelo paramétrico para la respuesta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X