21 votos

Comparación entre MaxEnt, ML, Bayes y otros tipos de métodos de inferencia estadística

No soy en absoluto un estadístico (he tenido un curso de estadística matemática pero nada más que eso), y recientemente, mientras estudiaba la teoría de la información y la mecánica estadística, conocí esta cosa llamada "medida de incertidumbre"/"entropía". Leí la derivación de Khinchin como medida de incertidumbre y me pareció que tenía sentido. Otra cosa que tuvo sentido fue la descripción de Jaynes de MaxEnt para obtener una estadística cuando se conoce la media aritmética de una o más funciones en la muestra (suponiendo que se acepte $-\sum p_i\ln p_i$ como medida de incertidumbre, por supuesto).

Así que busqué en la red la relación con otros métodos de inferencia estadística, y Dios me confundió. Por ejemplo este El papel sugiere, asumiendo que lo he entendido bien, que simplemente se obtenga un estimador ML bajo una reformulación adecuada del problema; MacKey, en su libro, dice que MaxEnt puede dar cosas raras, y que no deberías usarlo ni siquiera para una estimación de partida en una inferencia bayesiana; etc. Tengo problemas para encontrar buenas comparaciones.

Mi pregunta es, ¿podría proporcionar una explicación y/o buenas refencias de los puntos débiles y fuertes de MaxEnt como método de inferencia estadística con comparaciones cuantitativas con otros métodos (cuando se aplica a modelos de juguete, por ejemplo)?

10voto

Oak Puntos 1366

Los métodos de inferencia MaxEnt y Bayesiana corresponden a diferentes formas de incorporar información a su procedimiento de modelización. Ambos pueden situarse en un terreno axiomático (John Skilling "Axiomas de la máxima entropía" y la de Cox "Álgebra de la Inferencia Probable" ).

El enfoque bayesiano es sencillo de aplicar si el conocimiento previo se presenta en forma de una función medible de valor real sobre el espacio de hipótesis, lo que se denomina "prior". MaxEnt es sencillo cuando la información viene en forma de un conjunto de restricciones duras sobre su espacio de hipótesis. En la vida real, el conocimiento no se presenta ni en forma de "previo" ni en forma de "restricción", por lo que el éxito del método depende de la capacidad de representar el conocimiento en la forma correspondiente.

En un problema de juguete, el promedio del modelo bayesiano le dará más bajo La pérdida logarítmica media (promediada en muchas extracciones del modelo) cuando la prioridad coincide con la verdadera distribución de las hipótesis. El enfoque MaxEnt le dará más bajo la peor pérdida logarítmica cuando se satisfacen sus restricciones (la peor tomada sobre todos los posibles antecedentes)

E.T.Jaynes, considerado el padre de los métodos "MaxEnt", también se basó en los métodos bayesianos. En página 1412 de su libro El autor da un ejemplo en el que el enfoque bayesiano dio lugar a una buena solución, seguido de un ejemplo en el que el enfoque MaxEnt es más natural.

La máxima verosimilitud esencialmente toma el modelo para que se encuentre dentro de un espacio de modelos predeterminado y trata de ajustarlo "lo más posible" en el sentido de que tendrá la mayor sensibilidad a los datos de todos los métodos de selección de modelos restringidos a dicho espacio de modelos. Mientras que MaxEnt y Bayesiano son marcos de trabajo, ML es un método concreto de ajuste de modelos, y para algunas elecciones de diseño particulares, ML puede acabar siendo el método que salga del enfoque Bayesiano o MaxEnt. Por ejemplo, MaxEnt con restricciones de igualdad es equivalente al ajuste por máxima verosimilitud de una determinada familia exponencial. Del mismo modo, una aproximación a la Inferencia Bayesiana puede llevar a una solución de Máxima Verosimilitud regularizada. Si se elige el prior para que las conclusiones sean lo más sensibles posible a los datos, el resultado de la inferencia bayesiana corresponderá al ajuste de Máxima Verosimilitud. Por ejemplo, al inferir $p$ sobre ensayos Bernoulli, tal previo sería la distribución límite Beta(0,0)

Los éxitos del aprendizaje automático en la vida real suelen ser una mezcla de varias filosofías. Por ejemplo, los "campos aleatorios" fueron derivado de los principios de MaxEnt. La aplicación más popular de la idea, el CRF regularizado, consiste en añadir una "prioridad" a los parámetros. Como resultado, el método no es realmente MaxEnt ni bayesiano, sino que está influenciado por ambas escuelas de pensamiento.

He recopilado algunos enlaces sobre los fundamentos filosóficos de los enfoques bayesiano y MaxEnt aquí y aquí .

Nota sobre la terminología: a veces la gente llama a su método bayesiano simplemente si utiliza la regla de Bayes en algún momento. Del mismo modo, "MaxEnt" se utiliza a veces para algún método que favorece las soluciones de alta entropía. No es lo mismo que la "inferencia MaxEnt" o la "inferencia bayesiana" descrita anteriormente

3voto

Es cierto que en el pasado, MaxEnt y Bayes han tratado con diferentes tipos o formas de información. Sin embargo, yo diría que Bayes también utiliza restricciones "duras", la probabilidad.

En cualquier caso, ya no es un problema, ya que la regla de Bayes (no la regla del producto) se puede obtener a partir de la máxima entropía relativa (MrE), y no de forma ambigua:

Es un mundo nuevo...

0voto

Noam Gal Puntos 155

Para una crítica entretenida de los métodos de máxima entropía, recomendaría la lectura de algunos mensajes de grupos de noticias antiguos en sci.stat.math y sci.stat.consult, especialmente los de Radford Neal:

No conozco ninguna comparación entre maxent y otros métodos: parte del problema parece ser que maxent no es realmente un marco, sino una directiva ambigua ("ante una incógnita, simplemente maximiza la entropía"), que es interpretada de diferentes maneras por diferentes personas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X