En el libro "Programación de la Inteligencia Colectiva" Segaran explica el método de Fisher para categorizar el texto como una alternativa al clasificador Bayes ingenuo. El método Fisher utiliza la distribución inversa-chi-cuadrado, que no entiendo realmente.
Vi este video encontrado en stats.stackexchange sobre la distribución de chi-cuadrado para entender al menos la función "forward": http://www.youtube.com/watch?v=dXB3cUGnaxQ
Segaran explica en su libro que utilizan el chi-cuadrado inverso para obtener de alguna manera una probabilidad "de que un conjunto aleatorio de probabilidades devuelva un número tan alto". Con número alto quiere decir que un elemento que encaja en una categoría específica tiene muchas características con altas probabilidades en esa categoría. De alguna manera también parece tener en cuenta que "si las probabilidades fueran independientes y aleatorias, el resultado de este cálculo se ajustaría a una distribución chi-cuadrado". Pero como mencionó antes, las palabras no son independientes (lo que también es una falsa suposición en los ingenuos bayes). Entonces, ¿cómo funciona esto entonces?
Y si lo entiendo ahora mismo, la función chi-cuadrado inverso comprueba de alguna manera si muchas de mis palabras tienen una alta probabilidad de estar en el texto y sólo si todas las palabras tienen una probabilidad tan alta que devuelve una alta probabilidad global?
Estoy un poco confundido.
P.D.: Todo el párrafo: "Fisher mostró que si las probabilidades eran independientes y aleatorias, el resultado de este cálculo se ajustaría a una distribución chi-cuadrado. Se esperaría que un elemento que no pertenece a una categoría particular contenga palabras de probabilidades de características variables para esa categoría (que parecerían algo aleatorias), y que un elemento que sí pertenece a esa categoría tenga muchas características con altas probabilidades. Alimentando el resultado del cálculo de Fisher a la función chi-cuadrado inverso", se obtiene la probabilidad de que un conjunto aleatorio de probabilidades devuelva un número tan alto".
1 votos
La cita parece un poco confusa, ya que la inversa de la chi-cuadrado devuelve un cuantil, no una probabilidad. La entrada a la inversa de la FCD es una probabilidad, no la salida.
3 votos
La intención probable es Método de Fisher para combinar los valores p en un único valor p global