Unit : indici di variabilità
Sito: | Federica Web Learning - LMS |
Corso: | Statistica Psicometrica |
Unit: | Unit : indici di variabilità |
Stampato da: | Utente ospite |
Data: | sabato, 23 novembre 2024, 11:31 |
Descrizione
- La variabilità: definizione e approcci per la misurazione
- Indicatori di mutua variabilità
- Indicatori di dispersione
- Altre misure di variabilità
- Formula alternativa per il calcolo della varianza
- Scomposizione della devianza (varianza)
- Indice di Gini
Indice Unit
- 1. La variabilità dei caratteri statistici /1
- 2. La variabilità dei caratteri statistici /2
- 3. Differenti approcci per la misura della variabilità
- 4. Misure di mutua variabilità /1
- 5. Misure di mutua variabilità /2
- 6. Misure di mutua variabilità /3
- 7. Misure di mutua variabilità /4
- 8. Misure di mutua variabilità /5
- 9. Variabilità rispetto alla media aritmetica /1
- 10. Variabilità rispetto alla media aritmetica /2
- 11. Variabilità rispetto alla media aritmetica /3
- 12. Variabilità rispetto alla media aritmetica /4
- 13. Altre misure di variabilità
- 14. Formula alternativa per il calcolo della devianza/varianza
- 15. Scomposizione della devianza (o della varianza)
- 16. Misura della variabilità per caratteri nominali: indice di Gini
- 17. Indice di Gini normalizzato
- 18. Indice di Gini: esempio
1. La variabilità dei caratteri statistici /1
L’impiego delle sole misure di tendenza centrale non ci permette di distinguere fra situazioni che possono essere molto differenti fra loro.
Consideriamo sempre la nostra serie (molto banale), fatta di sole 5 osservazioni in tre diversi casi:
- \( \{ 1, 2, 3, 4, 5 \} \)
- \( \{ 1, 1, 3, 5, 5 \} \)
- \( \{ 3, 3, 3, 3, 3 \} \)
Cosa osserviamo?
In tutti e tre i casi la media \(\overline{x}\) e la mediana \(Me\) sono uguali a \(3\), ma. . .
- nel caso a. i valori sono distribuiti attorno alla media/mediana;
- nel caso b. le frequenze si concentrano sulle modalità estreme e questo, di fatto, fa perdere di significatività alla misura di tendenza centrale;
- il caso c. è una distribuzione degenere. Tutti i valori, infatti, sono identici alla media/mediana rendendo inutile qualsiasi tipo di ulteriore analisi.
2. La variabilità dei caratteri statistici /2
Definizione:
La variabilità di un fenomeno è la sua attitudine ad assumere differenti modalità.
Stante questa definizione possiamo indicare quali proprietà deve avere una misura di variabilità.
Misura della variabilità- qualsiasi indice di variabilità deve essere sempre \( \geq 0 \);
- se una distribuzione è costante la variabilità è \(0\);
- le misure di variabilità devono essere invarianti (almeno in senso di riferimento) rispetto a trasformazioni lineari della distribuzione.
3. Differenti approcci per la misura della variabilità
- mutua variabilità (o variabilità reciproca) tra tutte le possibili coppie di modalità;
- variabilità rispetto ad un centro delle singole modalità \( x_1, x_2, \dots , x_N \) rispetto ad una misura di tendenza centrale (media, moda, mediana, ecc.) mediante una sintesi degli scarti ed il valore di riferimento;
- variabilità delle modalità ordinate \( x_1, x_2, \dots , x_N \) mediante indici derivati dalla funzione di ripartizione \(F(X)\);
- variabilità rispetto alle sole frequenze relative \(f(X)\), mediante una sintesi della mutevolezza delle frequenze.
4. Misure di mutua variabilità /1
Il modo più logico ed intuitivo per confrontare fra loro le modalità di una serie/distribuzione consiste nel fare dei confronti fra tutte le modalità prese a due a due. Bisogna cioè considerare gli scarti fra tutte le possibili coppie.
Attenzione!
È evidente, quindi, che la necessità di dover effettuare delle sottrazioni fra le modalità implica che tali misure si possono determinare solo per caratteri trasferibili, cioè solo per le variabili.
Non sono pochi i problemi dove tali tipi di misure di variabilità trovano utilizzo. Queste sono in grado di valutare in modo efficace la condizione di diseguaglianza all’interno di una distribuzione.
5. Misure di mutua variabilità /2
Condizioni estreme
Cominciamo con l’identificare i casi estremi:
- variabilità minima: tutte le unità statistiche possiedono lo stesso ammontare di carattere
\[ x_1 = x_2 = \dots = x_N . \]
Per una ben nota proprietà della media aritmetica avremo che:
\[ x_1 = x_2 = \dots = x_N = \bar{x} .\]
Sotto tale ipotesi, per definizione, qualunque sia la misura di variabilità, la variabilità deve essere \(0\).
- variabilità massima: tutte le unità statistiche possiedono un ammontare di carattere pari 0 tranne una
\[ x_N = N\bar{x} = \sum_{i=1}^N x_i \]
e
\[ x_1 = x_2 = \dots = x_{N−1} = 0. \]
Sotto tale ipotesi, per definizione, qualunque sia la misura di variabilità, la variabilità deve essere massima.
6. Misure di mutua variabilità /3
Differenza semplice media
Si definisce differenza semplice media la seguente quantità:
\[ \Delta = \dfrac{1}{N(N-1)}\sum_{i \neq j = 1}^N |x_i - x_j| \]
Dove la notazione \( \displaystyle \sum_{i \neq j = 1}^N \) sta ad indicare che bisogna sommare tutti gli scarti in valore assoluto facendo ruotare i contatori \(i\) e \(j\) ma escludendo dalle somme i casi in cui \(i = j\).
Il numero complessivo di addendi della sommatoria è \(N(N − 1)\).
7. Misure di mutua variabilità /4
Differenza semplice media (con ripetizione)
Si definisce differenza semplice media la seguente quantità:
\[ \Delta = \dfrac{1}{N(N-1)}\sum_{i \neq j = 1}^N |x_i - x_j| \]
- Il minimo valore di \(\Delta \) è ovviamente \(0\);
- Il massimo valore di \(\Delta \) si verifica quando \((N − 1)\) unità hanno \(0\) ed una sola unità possiede \(N\bar{x}\). Si può facilmente verificare che in tal caso si ha \( \Delta = 2\bar{x} \).
- Se ne deduce quindi che:
\[ 0 \leq \Delta \leq 2 \bar{x} \]
8. Misure di mutua variabilità /5
Normalizzazione dell’indice
Se di un indice è possibile determinarne il valore massimo (come in questo caso) è conveniente procedere alla sua normalizzazione, ovvero definire il suo intervallo di variazione nell’intervallo \([0, 1]\).
Normalizzazione dell’indice di mutua variabilità
\[ 0 \leq \dfrac{\Delta}{2\bar{x}} \leq 1 \]
Tale indice prende anche il nome di Rapporto di concentrazione di Gini
9. Variabilità rispetto alla media aritmetica /1
La variabilità rispetto alla media aritmetica \(\bar{x}\) presuppone che vengano tenuti in considerazione gli scarti rispetto alla media.
Possiamo considerare a tal fine questa quantità?
\[ \sum_{i=1}^N (x_i - \bar{x}) \]
No, perché sappiamo che la somma degli scarti dalla media è sempre uguale a \(0\).
Dobbiamo fare in modo che gli scarti positivi e gli scarti negativi non vadano a compensarsi.
Possibili soluzioni
- \( \displaystyle \sum_{i=1}^N |x_i - \bar{x}| \)
- \( \displaystyle \sum_{i=1}^N (x_i - \bar{x})^2 \)
Delle due soluzioni dobbiamo scegliere la seconda. Perché?
Perché la media aritmetica è il centro di ordine 2, ovvero minimizza la somma degli scarti al quadrato.
10. Variabilità rispetto alla media aritmetica /2
La devianza
La quantità
\[ DEV(X) = \sum_{i=1}^N (x_i - \bar{x})^2 \]
si chiama devianza e corrisponde alla somma degli scarti al quadrato.
La devianza si incrementa sia se aumenta la variabilità attorno alla media sia se aumenta \(N\).
La varianza
La quantità
\[ \sigma^2 (X) = \dfrac{1}{N} \sum_{i=1}^N (x_i - \bar{x})^2 \]
è definita varianza e corrisponde alla media degli scarti al quadrato.
La varianza non dipende da \(N\) ma è espressa in termini del quadrato dell’unità di misura.
Il segno \(\mathit{\sigma}\) si legge sigma e corrisponde alla lettera “s” dell’alfabeto greco. La varianza \(\sigma^2\) si legge sigma quadro (o anche sigma quadrato).
Lo scarto quadratico medio (SQM) o Deviazione Standard (DS)
La quantità
\[ \sigma (X) = \sqrt{\dfrac{1}{N} \sum_{i=1}^N (x_i - \bar{x})^2} \]
si chiama scarto quadratico medio o deviazione standard e corrisponde alla radice quadrata della varianza.
11. Variabilità rispetto alla media aritmetica /3
La varianza massima
Si consideri la serie \(X : x_1, x_2, \dots , x_N\) con media \(\bar{x} \neq 0\)a, la variabilità della serie è
massima se tutti i valori \(x_1, x_2, \dots , x_{N−1} = 0\) e \( x_N = N\bar{x}\), in altri termini tutto il carattere è posseduto da una sola unità statistica. Determiniamo, sotto queste
condizioni il valore di \(\sigma^2\):
\[ \begin{array}{lll} \sigma^2 & = & \dfrac{1}{N}\left[ (N-1)(0-\bar{x})^2 + (N\bar{x} -\bar{x})^2 \right] \\[3pt] \, & = & \dfrac{1}{N}\left[ \cancel{N\bar{x}^2} \cancel{-\bar{x}^2} + N^2 \bar{x}^2 - \cancel{2}\!N\bar{x}^2 \cancel{+\bar{x}^2} \right] \\[3pt] \, & = & \dfrac{1}{N} \left[ N\bar{x}^2 (N-1) \right] \\[3pt] \, & = & (N-1)\bar{x}^2 \end{array} \]
aSe la media è 0 vuol dire che x1 = x2 = ... = xN = 0 e quindi ovviamente la varianza max è 0 poiché la distribuzione è degenere in 0.
12. Variabilità rispetto alla media aritmetica /4
Il coefficiente di variazione
Il coefficiente di variazione (\(\text{CV}\)) è definito dal rapporto fra la deviazione standard e la media aritmetica, in generale viene moltiplicato per \(100\) e viene letto in termini
percentuali:
\[ \text{CV} = \dfrac{\sigma}{\bar{x}} \times 100 \]
Ricordiamo che il massimo della varianza è uguale a \(\bar{x}^2(N − 1)\), quindi la deviazione standard sarà al massimo uguale a \(\bar{x}\sqrt{\rule{0pt}{7pt} N − 1}\).
Il valore massimo raggiunto dal \(\text{CV}\) è pertanto uguale a:
\[ \text{CV}_{\text{max}} = \dfrac{\bar{x}}{\bar{x}}\sqrt{\rule{0pt}{7pt} N-1} \]
La relazione è molto interessante, evidenzia che, raggiunta la condizione di massima concentrazione del carattere - l’intero ammontare appartiene ad una sola unità statistica -, la variabilità espressa dalla deviazione standard può aumentare solo in ragione di \(\sqrt{\rule{0pt}{7pt} N}\).
13. Altre misure di variabilità
Tutti gli indici che soddisfano le proprietà enunciate, ovvero che sono definiti solo in \([0; +\infty]\) e che assumono valore \(0\) se e solo se \(X : x_1 = x_2 = \dots = x_N\) , possono essere assunti come misura della variabilità nella serie o nella distribuzione.
Campo di variazione: \( A = \max(X) − \min(X) \)
Semidifferenza interquartilica: Siano \(Q_1, Me, Q_3, \) la semidifferenza interquartilica è la media aritmetica degli scarti dei quartili dalla mediana in valore assoluto:
\[ \delta Q = \dfrac{1}{2} \left[ (Q_3 - \color{red}{\cancel{Me}}) + (\color{red}{\cancel{Me}} - Q_1) \right] = \dfrac{1}{2}(Q_3 - Q_1) \]
Scostamento semplice mediano
\[ SSMe = \dfrac{1}{N} \sum_{i=1}^N |x_i - Me| \]
14. Formula alternativa per il calcolo della devianza/varianza
Momenti di una distribuzione
La quantità:
\[ \dfrac{1}{N} \sum_{i=1}^N x_i^r \]
si definisce momento \(r\)-simo della distribuzione, pertanto la quantità \( \displaystyle \dfrac{1}{N} \sum_{i=1}^N x_i \) è il momento primo e coincide con la media aritmetica, \( \displaystyle \dfrac{1}{N} \sum_{i=1}^N x_i^2 \) è il momento secondo e così via.
La varianza è la differenza fra il momento \(\text{II}\) e il quadrato del momento \(\text{I}\)
Dimostrazione:
\[ \begin{array}{lll} \sigma^2 & = & \displaystyle \dfrac{1}{N} \sum_{i=1}^N (x_i - \bar{x})^2 = \dfrac{1}{N} \sum_{i=1}^N (x_i^2 -2\bar{x}x_i + \bar{x}^2) = \\[3pt] \, & = & \displaystyle \dfrac{1}{N} \left( \sum_{i=1}^N x_i^2 - 2\bar{x} \sum_{i=1}^N x_i + N\bar{x}^2 \right) = \\[3pt] \, & = & \displaystyle \dfrac{1}{N} \left( \sum_{i=1}^N x_i^2 - 2N\bar{x}^2 + N\bar{x}^2 \right) = \dfrac{1}{N} \sum_{i=1}^N x_i^2 - \bar{x}^2 \quad \blacksquare \end{array}\]
15. Scomposizione della devianza (o della varianza)
\[
\bar{x} = \frac{n_1\bar{x}_1 + n_2\bar{x}_2}{n_1+n_2}
\]
16. Misura della variabilità per caratteri nominali: indice di Gini
Sia \(X\) una generica variabile categorica (mutabile) con modalità \(1, 2, \cdots k, \cdots K\) per cui \(f_k\) indica la frequenza relativa osservata in corrispondenza della generica modalità \(k\) ed è soddisfatta la seguente condizione \[ \sum_{k=1}^{K}{f_k}=1\]. L'indice di Gini \(G\) è definito attraverso la seguente espressione
$$
\boxed{G = 1 - \sum_{k=1}^{K}f_k^2.}
$$
L'indice assume il suo valore massimo: massima eterogeneità, quando la frequenza di ciascuna modalità è pari a \( \displaystyle{\frac{1}{k}}\) e assume il suo valore minimo, pari a \(0\), quando l'intero ammontare delle frequenze corrisponde a un'unica modalità. Infatti:
$$
\max{G} = 1 - \sum_{k=1}^{K}{f_k^2} = 1 - k\left(\frac{1}{k}\right)^2 = 1 - \frac{1}{k} = \frac{k-1}{k},
$$
è superfluo dimostrare che l'indice vale \(0\) sotto la condizione di minima eterogeneità: la distribuzione degenera su una sola modalità la cui frequenza relativa \( f_k = 1\).
17. Indice di Gini normalizzato
L'indice di eterogeneità di Gini può essere normalizzato esprimendolo in rapporto al suo valore massimo \( \frac{k-1}{k} \), sarà indicato con \( G^{\star} \) e varia in \( [0, 1] \):
$$
\boxed{G^{\star} = \left( 1 - \sum_{k=1}^{K}f_k^2\right)\frac{k}{k-1}.}
$$
18. Indice di Gini: esempio
Tipo diploma | n |
f | 1/k | \(k^2\) |
Liceo classico | 8'470 | 0.033 | 0.091 | 0.0011 |
Liceo scientifico | 64'302 | 0.252 | 0.091 | 0.0634 |
Liceo linguistico | 8'505 | 0.033 | 0.091 | 0.0011 |
Liceo delle scienze umane | 7'907 | 0.031 | 0.091 | 0.0010 |
Liceo musicale e coreutico | 1'630 | 0.006 | 0.091 | 0.0000 |
Liceo artistico | 7'199 | 0.028 | 0.091 | 0.0008 |
Liceo (eur. e intern) | 864 | 0.003 | 0.091 | 0.0000 |
Tecnico - settore economico | 32'160 | 0.126 | 0.091 | 0.0159 |
Tecnico - settore tecnologico | 75'798 | 0.297 | 0.091 | 0.0881 |
Professionale - settore industria | 14'650 | 0.057 | 0.091 | 0.0033 |
Professionale - settore servizi | 33'814 | 0.132 | 0.091 | 0.0175 |
Totale | 255'299 | 1.0 | 1.0 |
0.1922 |
Di conseguenza \( G = 1 - 0.1922 = {\bf 0.8078} \)
e \( G^{\star} = 0.8078 \times \frac{11}{11-1}={\bf 0.8885} \).