Unit : indici di variabilità

16. Misura della variabilità per caratteri nominali: indice di Gini

Sia \(X\) una generica variabile categorica (mutabile) con modalità \(1, 2, \cdots k, \cdots K\) per cui \(f_k\) indica la frequenza relativa osservata in corrispondenza della generica modalità \(k\) ed è soddisfatta la seguente condizione \[ \sum_{k=1}^{K}{f_k}=1\]. L'indice di Gini \(G\) è definito attraverso la seguente espressione
$$
\boxed{G = 1 - \sum_{k=1}^{K}f_k^2.}
$$

L'indice assume il suo valore massimo: massima eterogeneità, quando la frequenza di ciascuna modalità è pari a \( \displaystyle{\frac{1}{k}}\) e assume il suo valore minimo, pari a \(0\),  quando l'intero ammontare delle frequenze corrisponde a un'unica modalità. Infatti:

$$
\max{G} = 1 - \sum_{k=1}^{K}{f_k^2} = 1 - k\left(\frac{1}{k}\right)^2 = 1 - \frac{1}{k} = \frac{k-1}{k},
$$

è superfluo dimostrare che l'indice vale \(0\) sotto la condizione di minima eterogeneità: la distribuzione degenera su una sola modalità la cui  frequenza relativa \( f_k = 1\).