24 votos

¿Cuál es la relación entre el coeficiente de GINI de puntuación y el log-likelihood ratio

Estoy estudiando árboles de clasificación y regresión, y una de las medidas para la división de ubicación es el coeficiente de GINI de puntuación.

Ahora estoy acostumbrado a la determinación de las mejores split ubicación cuando el log de la verosimilitud de los mismos datos entre dos distribuciones es cero, es decir, la probabilidad de pertenencia es igualmente probable.

Mi intuición me dice que debe haber una conexión de algún tipo, que de GINI tiene que tener una buena base en la teoría matemática de la información (Shannon), pero no entiendo de GINI lo suficientemente bien como para derivar la relación mí mismo.

Preguntas:

  • ¿Qué es el "primeros principios" de la derivación de GINI impureza puntuación, como una medida para dividir?
  • ¿Cómo funciona el GINI puntuación se relacionan con registro de razón de verosimilitud o de otro la teoría de la información fundamentos (la Entropía de Shannon, pdf, y la cruz de la entropía son parte de esos)?

Referencias:

La entropía de Shannon es descrito como:

$$ H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right) $$

Ampliar este concepto para el caso multivariante, se obtiene:

$$ H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right) $$

Condicional de la Entropía se define como sigue:

\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} \newline &\text{or,} \newline H \left(X|Y \right) &= H \left(X,Y \right) - H \left(Y \right) \end{align}

El registro de la relación de las probabilidades se utiliza para el cambio brusco de detección y se derivan de la utilización de estos. (No tengo derivación en frente de mí.)

De GINI de la Impureza:

  • La forma general de GINI de la impureza es $ I = \sum_{i=1}^m f_{i} \cdot \left( 1-f_{i}\right) $

Pensamientos:

  • La división se hace en una medida de impureza. Alta "pureza" es, probablemente, el mismo que baja entropía. El enfoque está probablemente relacionado con la minimización de la entropía.
  • Es probable que la supuesta base de la distribución es uniforme, o, posiblemente, con la mano saludando, Gaussiano. Es probable hacer una mezcla de distribuciones.
  • Me pregunto si el gráfico de Shewhart derivación puede aplicar aquí?
  • El coeficiente de GINI de la Impureza se parece a la integral de la función de densidad de probabilidad de una distribución binomial con 2 ensayos, y un éxito. $P(x=k)= \begin{pmatrix} 2\\ 1\end{pmatrix} p \left( 1-p \right) $

(adicional)

  • El formulario también está en consonancia con un Beta-binomial la distribución que es un conjugado antes de una distribución Hipergeométrica. Hipergeométrica pruebas se utilizan a menudo para determinar que las muestras están sobre o bajo el representado en una muestra. También hay una relación con la prueba exacta de Fisher, sea lo que sea (nota personal, vayan a aprender más acerca de esto).

Editar: Sospecho que hay una forma de GINI, que funciona muy bien con lógica digital y/o rb-los árboles. Espero que para explorar esta en un proyecto de la clase de este otoño.

15voto

James Puntos 1294

Voy a utilizar la misma notación que se usa aquí: Matemáticas detrás de árboles de clasificación y regresión

De Gini de la Ganancia y la Ganancia de Información ($IG$) son impureza basado en los criterios de división. La única diferencia es en la impureza de la función $I$:

  1. $\textit{Gini}: \mathit{Gini}(E) = 1 - \sum_{j=1}^{c}p_j^2$
  2. $\textit{Entropy}: H(E) = -\sum_{j=1}^{c}p_j\log p_j$

En realidad son los valores extremos de una más general de la entropía medida (Reyni Entropía) parametrizadas en $\beta$:

$$H_\beta (E) = \frac{1}{\beta-1} \left( 1 - \sum_{j=1}^{c}p_j^\beta \right) $$

$\textit{Gini}$ se obtiene con $\beta = 2$$H$$\beta \rightarrow 1$.

La log-verosimilitud, también llamado $G$-estadística, es una transformación lineal de Ganancia de Información:

$$G\text{-statistic} = 2 \cdot |E| \cdot IG$$

Dependiendo de la comunidad (estadísticas/minería de datos) de la gente prefiere una medida o la otra (pregunta Relacionada aquí). Que puede ser más o menos equivalente en el árbol de decisión proceso de inducción. La Log-verosimilitud podría dar mayor puntuación equilibrada particiones cuando hay muchas clases aunque [Nota Técnica: Algunas Propiedades de los Criterios de División. Breiman 1996].

De Gini, la Ganancia puede ser mejor porque no tiene logaritmos y usted puede encontrar la forma cerrada de su valor esperado y la varianza bajo azar split asunción [Alin Dobra, Johannes Gehrke: Corrección del Sesgo en la Clasificación del Árbol de la Construcción. ICML 2001: 90-97]. No es tan fácil para la obtención de Información (Si usted está interesado, ver aquí).

1voto

Gabriel Puntos 186

Buena pregunta. Por desgracia no tengo la suficiente reputación aún upvote o comentario, para responder por el contrario!

No estoy muy familiarizado con la prueba de razón, pero se me ocurre que es un formalismo utilizado para comparar la probabilidad de que los datos derivados de dos (o más) diferentes distribuciones, mientras que el coeficiente de Gini es una estadística de resumen de una sola distribución.

Una manera útil de pensar en el coeficiente de Gini (IMO) como el área bajo la curva de Lorenz (relacionadas con la cdf).

Es posible equiparar la entropía de Shannon con Gini utilizando la definición dada en el OP para la entropía:

$H = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right)$

y la definición de Gini:

$G = 1 - \frac{1}{\mu}\Sigma_i P(x_i)(S_{i-1} + S_i)$, donde

$S_i = \Sigma_{j=1}^i P(x_i)x_i$ (es decir, la acumulada media hasta el $x_i$).

No parece una tarea fácil, aunque!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X