Estoy estudiando árboles de clasificación y regresión, y una de las medidas para la división de ubicación es el coeficiente de GINI de puntuación.
Ahora estoy acostumbrado a la determinación de las mejores split ubicación cuando el log de la verosimilitud de los mismos datos entre dos distribuciones es cero, es decir, la probabilidad de pertenencia es igualmente probable.
Mi intuición me dice que debe haber una conexión de algún tipo, que de GINI tiene que tener una buena base en la teoría matemática de la información (Shannon), pero no entiendo de GINI lo suficientemente bien como para derivar la relación mí mismo.
Preguntas:
- ¿Qué es el "primeros principios" de la derivación de GINI impureza puntuación, como una medida para dividir?
- ¿Cómo funciona el GINI puntuación se relacionan con registro de razón de verosimilitud o de otro la teoría de la información fundamentos (la Entropía de Shannon, pdf, y la cruz de la entropía son parte de esos)?
Referencias:
- Cómo es el promedio Ponderado de Gini Criterio definido?
- Las matemáticas detrás de los árboles de clasificación y regresión
-
http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(añadido) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- http://stackoverflow.com/questions/4936788/decision-tree-learning-and-impurity
La entropía de Shannon es descrito como:
$$ H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right) $$
Ampliar este concepto para el caso multivariante, se obtiene:
$$ H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right) $$
Condicional de la Entropía se define como sigue:
\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} \newline &\text{or,} \newline H \left(X|Y \right) &= H \left(X,Y \right) - H \left(Y \right) \end{align}
El registro de la relación de las probabilidades se utiliza para el cambio brusco de detección y se derivan de la utilización de estos. (No tengo derivación en frente de mí.)
De GINI de la Impureza:
- La forma general de GINI de la impureza es $ I = \sum_{i=1}^m f_{i} \cdot \left( 1-f_{i}\right) $
Pensamientos:
- La división se hace en una medida de impureza. Alta "pureza" es, probablemente, el mismo que baja entropía. El enfoque está probablemente relacionado con la minimización de la entropía.
- Es probable que la supuesta base de la distribución es uniforme, o, posiblemente, con la mano saludando, Gaussiano. Es probable hacer una mezcla de distribuciones.
- Me pregunto si el gráfico de Shewhart derivación puede aplicar aquí?
- El coeficiente de GINI de la Impureza se parece a la integral de la función de densidad de probabilidad de una distribución binomial con 2 ensayos, y un éxito. $P(x=k)= \begin{pmatrix} 2\\ 1\end{pmatrix} p \left( 1-p \right) $
(adicional)
- El formulario también está en consonancia con un Beta-binomial la distribución que es un conjugado antes de una distribución Hipergeométrica. Hipergeométrica pruebas se utilizan a menudo para determinar que las muestras están sobre o bajo el representado en una muestra. También hay una relación con la prueba exacta de Fisher, sea lo que sea (nota personal, vayan a aprender más acerca de esto).
Editar: Sospecho que hay una forma de GINI, que funciona muy bien con lógica digital y/o rb-los árboles. Espero que para explorar esta en un proyecto de la clase de este otoño.