Unit : indici di variabilità

Sito: Federica Web Learning - LMS
Corso: Statistica Psicometrica
Unit: Unit : indici di variabilità
Stampato da: Utente ospite
Data: sabato, 23 novembre 2024, 11:31

Descrizione

  • La variabilità: definizione e approcci per la misurazione
  • Indicatori di mutua variabilità
  • Indicatori di dispersione
  • Altre misure di variabilità
  • Formula alternativa per il calcolo della varianza
  • Scomposizione della devianza (varianza)
  • Indice di Gini

1. La variabilità dei caratteri statistici /1

L’impiego delle sole misure di tendenza centrale non ci permette di distinguere fra situazioni che possono essere molto differenti fra loro.

Consideriamo sempre la nostra serie (molto banale), fatta di sole 5 osservazioni in tre diversi casi:

  1. \( \{  1, 2, 3, 4, 5 \} \)
  1. \( \{  1, 1, 3, 5, 5 \} \)
  1. \( \{  3, 3, 3, 3, 3 \} \)

Cosa osserviamo?

In tutti e tre i casi la media \(\overline{x}\) e la mediana \(Me\) sono uguali a \(3\), ma. . .

  • nel caso a. i valori sono distribuiti attorno alla media/mediana;
  • nel caso b. le frequenze si concentrano sulle modalità estreme e questo, di fatto, fa perdere di significatività alla misura di tendenza centrale;
  • il caso c. è una distribuzione degenere. Tutti i valori, infatti, sono identici alla media/mediana rendendo inutile qualsiasi tipo di ulteriore analisi.

2. La variabilità dei caratteri statistici /2

Definizione:
La variabilità di un fenomeno è la sua attitudine ad assumere differenti modalità.

Stante questa definizione possiamo indicare quali proprietà deve avere una misura di variabilità.

Misura della variabilità
  1. qualsiasi indice di variabilità deve essere sempre \( \geq 0 \);
  2. se una distribuzione è costante la variabilità è \(0\);
  3. le misure di variabilità devono essere invarianti (almeno in senso di riferimentorispetto a trasformazioni lineari della distribuzione.

3. Differenti approcci per la misura della variabilità

  1. mutua variabilità (o variabilità reciproca) tra tutte le possibili coppie di modalità;
  2. variabilità rispetto ad un centro delle singole modalità \( x_1, x_2, \dots , x_N \) rispetto ad una misura di tendenza centrale (media, moda, mediana, ecc.) mediante una sintesi degli scarti ed il valore di riferimento;
  3. variabilità delle modalità ordinate \( x_1, x_2, \dots ,  x_N \) mediante indici derivati dalla funzione di ripartizione \(F(X)\);
  4. variabilità rispetto alle sole frequenze relative \(f(X)\), mediante una sintesi della mutevolezza delle frequenze.

4. Misure di mutua variabilità /1

Il modo più logico ed intuitivo per confrontare fra loro le modalità di una serie/distribuzione consiste nel fare dei confronti fra tutte le modalità prese a due a due. Bisogna cioè considerare gli scarti fra tutte le possibili coppie.

Attenzione!
È evidente, quindi, che la necessità di dover effettuare delle sottrazioni fra le modalità implica che tali misure si possono determinare solo per caratteri trasferibili, cioè solo per le variabili.

Non sono pochi i problemi dove tali tipi di misure di variabilità trovano utilizzo. Queste sono in grado di valutare in modo efficace la condizione di diseguaglianza all’interno di una distribuzione.

5. Misure di mutua variabilità /2

Condizioni estreme
Cominciamo con l’identificare i casi estremi:

  • variabilità minima: tutte le unità statistiche possiedono lo stesso ammontare di carattere

    \[ x_1 = x_2 = \dots = x_N . \]

    Per una ben nota proprietà della media aritmetica avremo che:

    \[ x_1 = x_2 = \dots = x_N = \bar{x} .\]

    Sotto tale ipotesi, per definizione, qualunque sia la misura di variabilità, la variabilità deve essere \(0\).

  • variabilità massima: tutte le unità statistiche possiedono un ammontare di carattere pari 0 tranne una

    \[ x_N = N\bar{x} = \sum_{i=1}^N x_i \]

    e

    \[ x_1 = x_2 = \dots = x_{N−1} = 0. \]

    Sotto tale ipotesi, per definizione, qualunque sia la misura di variabilità, la variabilità deve essere massima.

6. Misure di mutua variabilità /3

Differenza semplice media
Si definisce differenza semplice media la seguente quantità:

\[ \Delta = \dfrac{1}{N(N-1)}\sum_{i \neq j = 1}^N |x_i - x_j|  \]

Dove la notazione \( \displaystyle \sum_{i \neq j = 1}^N \) sta ad indicare che bisogna sommare tutti gli scarti in valore assoluto facendo ruotare i contatori \(i\) e \(j\) ma escludendo dalle somme i casi in cui \(i = j\).

Il numero complessivo di addendi della sommatoria è \(N(N − 1)\).

7. Misure di mutua variabilità /4

Differenza semplice media (con ripetizione)
Si definisce differenza semplice media la seguente quantità:

\[ \Delta = \dfrac{1}{N(N-1)}\sum_{i \neq j = 1}^N |x_i - x_j|  \]

  • Il minimo valore di \(\Delta \) è ovviamente \(0\);
  • Il massimo valore di \(\Delta \) si verifica quando \((N − 1)\) unità hanno \(0\) ed una sola unità possiede \(N\bar{x}\). Si può facilmente verificare che in tal caso si ha \( \Delta = 2\bar{x} \).
  • Se ne deduce quindi che:
    \[ 0 \leq \Delta \leq 2 \bar{x} \]

8. Misure di mutua variabilità /5

Normalizzazione dell’indice
Se di un indice è possibile determinarne il valore massimo (come in questo caso) è conveniente procedere alla sua normalizzazione, ovvero definire il suo intervallo di variazione nell’intervallo \([0, 1]\).

Normalizzazione dell’indice di mutua variabilità

\[ 0 \leq \dfrac{\Delta}{2\bar{x}} \leq 1 \]

Tale indice prende anche il nome di Rapporto di concentrazione di Gini

9. Variabilità rispetto alla media aritmetica /1

La variabilità rispetto alla media aritmetica \(\bar{x}\) presuppone che vengano tenuti in considerazione gli scarti rispetto alla media.
Possiamo considerare a tal fine questa quantità?

\[ \sum_{i=1}^N (x_i - \bar{x}) \]

No, perché sappiamo che la somma degli scarti dalla media è sempre uguale a \(0\).
Dobbiamo fare in modo che gli scarti positivi e gli scarti negativi non vadano a compensarsi.

Possibili soluzioni

  • \( \displaystyle \sum_{i=1}^N |x_i - \bar{x}| \)
  • \( \displaystyle \sum_{i=1}^N (x_i - \bar{x})^2 \)

Delle due soluzioni dobbiamo scegliere la seconda. Perché?
Perché la media aritmetica è il centro di ordine 2, ovvero minimizza la somma degli scarti al quadrato.

10. Variabilità rispetto alla media aritmetica /2

La devianza
La quantità

\[ DEV(X) = \sum_{i=1}^N (x_i - \bar{x})^2 \]

si chiama devianza e corrisponde alla somma degli scarti al quadrato.
La devianza si incrementa sia se aumenta la variabilità attorno alla media sia se aumenta \(N\).


La varianza
La quantità

\[ \sigma^2 (X) = \dfrac{1}{N} \sum_{i=1}^N (x_i - \bar{x})^2 \]

è definita varianza e corrisponde alla media degli scarti al quadrato.
La varianza non dipende da \(N\) ma è espressa in termini del quadrato dell’unità di misura.
Il segno \(\mathit{\sigma}\) si legge sigma e corrisponde alla lettera “s” dell’alfabeto greco. La varianza \(\sigma^2\) si legge sigma quadro (o anche sigma quadrato).


Lo scarto quadratico medio (SQM) o Deviazione Standard (DS)
La quantità

\[ \sigma (X) = \sqrt{\dfrac{1}{N} \sum_{i=1}^N (x_i - \bar{x})^2} \]

si chiama scarto quadratico medio o deviazione standard e corrisponde alla radice quadrata della varianza.

11. Variabilità rispetto alla media aritmetica /3

La varianza massima
Si consideri la serie \(X : x_1, x_2, \dots , x_N\) con media \(\bar{x} \neq 0\)a, la variabilità della serie è  massima se tutti i valori \(x_1, x_2, \dots , x_{N−1} = 0\) e \( x_N = N\bar{x}\), in altri termini tutto il carattere è posseduto da una sola unità statistica. Determiniamo, sotto queste  condizioni il valore di \(\sigma^2\):

\[ \begin{array}{lll} \sigma^2 & = & \dfrac{1}{N}\left[ (N-1)(0-\bar{x})^2 + (N\bar{x} -\bar{x})^2 \right] \\[3pt] \, & = & \dfrac{1}{N}\left[ \cancel{N\bar{x}^2} \cancel{-\bar{x}^2} + N^2 \bar{x}^2 - \cancel{2}\!N\bar{x}^2 \cancel{+\bar{x}^2} \right] \\[3pt] \, & = & \dfrac{1}{N} \left[ N\bar{x}^2 (N-1) \right] \\[3pt] \, & = & (N-1)\bar{x}^2  \end{array} \]

aSe la media è 0 vuol dire che x1 = x2 = ... = xN = 0 e quindi ovviamente
la varianza max è 0 poiché la distribuzione è degenere in 0.

12. Variabilità rispetto alla media aritmetica /4

Il coefficiente di variazione
Il coefficiente di variazione (\(\text{CV}\)) è definito dal rapporto fra la deviazione standard e la media aritmetica, in generale viene moltiplicato per \(100\) e viene letto in termini  percentuali:

\[ \text{CV} = \dfrac{\sigma}{\bar{x}} \times 100 \]

Ricordiamo che il massimo della varianza è uguale a \(\bar{x}^2(N − 1)\), quindi la deviazione standard sarà al massimo uguale a \(\bar{x}\sqrt{\rule{0pt}{7pt}  N − 1}\).
Il valore massimo raggiunto dal \(\text{CV}\) è pertanto uguale a:

\[ \text{CV}_{\text{max}} = \dfrac{\bar{x}}{\bar{x}}\sqrt{\rule{0pt}{7pt} N-1} \]

La relazione è molto interessante, evidenzia che, raggiunta la condizione di massima concentrazione del carattere - l’intero ammontare appartiene ad una sola unità statistica -, la variabilità espressa dalla  deviazione standard può aumentare solo in ragione di \(\sqrt{\rule{0pt}{7pt} N}\).

13. Altre misure di variabilità

Tutti gli indici che soddisfano le proprietà enunciate, ovvero che sono definiti solo in \([0; +\infty]\) e che assumono valore \(0\) se e solo se \(X : x_1 = x_2 = \dots = x_N\) , possono essere assunti come misura della variabilità nella serie o nella distribuzione.

Campo di variazione: \( A = \max(X) − \min(X) \)

Semidifferenza interquartilica: Siano \(Q_1, Me, Q_3, \) la semidifferenza interquartilica è la media aritmetica degli scarti dei quartili dalla mediana in valore assoluto:

\[ \delta Q = \dfrac{1}{2} \left[ (Q_3 - \color{red}{\cancel{Me}}) + (\color{red}{\cancel{Me}} - Q_1)  \right] = \dfrac{1}{2}(Q_3 - Q_1) \]

Scostamento semplice mediano

\[ SSMe = \dfrac{1}{N} \sum_{i=1}^N |x_i - Me| \]

14. Formula alternativa per il calcolo della devianza/varianza

Momenti di una distribuzione
La quantità:

\[ \dfrac{1}{N} \sum_{i=1}^N x_i^r \]

si definisce momento \(r\)-simo della distribuzione, pertanto la quantità \( \displaystyle \dfrac{1}{N} \sum_{i=1}^N x_i \) è il momento primo e coincide con la media aritmetica, \( \displaystyle \dfrac{1}{N} \sum_{i=1}^N x_i^2 \) è il momento secondo e così via.


La varianza è la differenza fra il momento \(\text{II}\) e il quadrato del momento \(\text{I}\)
Dimostrazione:

\[ \begin{array}{lll} \sigma^2 & = & \displaystyle \dfrac{1}{N} \sum_{i=1}^N (x_i - \bar{x})^2 = \dfrac{1}{N} \sum_{i=1}^N (x_i^2 -2\bar{x}x_i + \bar{x}^2) = \\[3pt] \, & = & \displaystyle \dfrac{1}{N} \left( \sum_{i=1}^N x_i^2 - 2\bar{x} \sum_{i=1}^N x_i + N\bar{x}^2 \right) = \\[3pt] \, & = & \displaystyle \dfrac{1}{N} \left( \sum_{i=1}^N x_i^2 - 2N\bar{x}^2 + N\bar{x}^2 \right) = \dfrac{1}{N} \sum_{i=1}^N x_i^2 - \bar{x}^2 \quad \blacksquare  \end{array}\]

15. Scomposizione della devianza (o della varianza)

Teorema di scomposizione della devianza

Sia \[X: x_1, x_2, \cdots, x_N\] una generica variabile con media uguale \(\bar{x}\) e varianza \(\sigma^2\), dimostriamo che se scomponiamo la serie in \(K\geq 2\) sottogruppi, aventi numerosità \(n_1, n_2, \cdots, n_K\) e medie \(\bar{x}_1,\bar{x}_2, \cdots \bar{x}_K\), la devianza (ma lo stesso vale per la varianza) totale è data dalla somma delle devianze nelle classi e la devianza fra le classi.

                        

Dimostrazione (per \(K=2\) ma valida per qualsiasi \(K<N\))

Ricordiamo che la media totale \(\bar{x}\) si può anche definire come media aritmetica ponderata delle medie parziali:
\[
\bar{x} = \frac{n_1\bar{x}_1 + n_2\bar{x}_2}{n_1+n_2}
\]


Consideriamo la seguente differenza:
\[\underbrace{\sum_{i=1}^{N}{(x_i - \bar{x})^2}}_{\text{Devianza Totale}} - \underbrace{\sum_{i=1}^{n_1}{(x_i - \bar{x}_1)^2} - \sum_{i=n_1+1}^{n_1 + n_2}{(x_i - \bar{x}_2)^2}}_{\text{Devianza nei gruppi}}\]

da cui, applicando la formula alternativa per il calcolo della devianza a tutti i termini, abbiamo
\[\color{red}{\cancel{\sum_{i=1}^{N}{x_i^2}}} - N\bar{x}^2 - \color{red}{\cancel{\sum_{i=1}^{n_1}{ x_i^2}}} + n_1\bar{x}_1^2 - \color{red}{\cancel{\sum_{i=n_1+1}^{n_1+n_2}{x_i^2}}} + n_2\bar{x}_2^2 = n_1(x_1^2 - \bar{x}^2) + n_2(x_2^2 - \bar{x}^2).\]

Si osserva che per \(K\ge 2\) la quantità che resta, la Devianza fra i gruppi, può essere indicata come:
\[\sum_{j=1}^{K}{n_j(\bar{x}_j - \bar{x})^2} = n_1(x_1^2 - \bar{x}^2) + n_2(x_2^2 - \bar{x}^2) + \cdots + n_K(x_K^2 - \bar{x}^2)\]

Questi passaggi ci dimostrano in via del tutto intuitiva che la differenza fra la devianza totale e la somma delle devianze nei gruppi non è una quantità pari a \(0\). O meglio, esiste una sola circostanza in cui la somma delle devianze parziali (devianze nei gruppi) equivale alla devianza totale: si deve verificare che la devianza fra i gruppi è \(0\), ovvero le medie di tutti i gruppi sono uguali fra loro e quindi anche uguali alla media totale.

Dividendo tutti i termini dell'espressione per \(N\) la dimostrazione vale anche per la varianza.

16. Misura della variabilità per caratteri nominali: indice di Gini

Sia \(X\) una generica variabile categorica (mutabile) con modalità \(1, 2, \cdots k, \cdots K\) per cui \(f_k\) indica la frequenza relativa osservata in corrispondenza della generica modalità \(k\) ed è soddisfatta la seguente condizione \[ \sum_{k=1}^{K}{f_k}=1\]. L'indice di Gini \(G\) è definito attraverso la seguente espressione
$$
\boxed{G = 1 - \sum_{k=1}^{K}f_k^2.}
$$

L'indice assume il suo valore massimo: massima eterogeneità, quando la frequenza di ciascuna modalità è pari a \( \displaystyle{\frac{1}{k}}\) e assume il suo valore minimo, pari a \(0\),  quando l'intero ammontare delle frequenze corrisponde a un'unica modalità. Infatti:

$$
\max{G} = 1 - \sum_{k=1}^{K}{f_k^2} = 1 - k\left(\frac{1}{k}\right)^2 = 1 - \frac{1}{k} = \frac{k-1}{k},
$$

è superfluo dimostrare che l'indice vale \(0\) sotto la condizione di minima eterogeneità: la distribuzione degenera su una sola modalità la cui  frequenza relativa \( f_k = 1\).

17. Indice di Gini normalizzato

L'indice di eterogeneità di Gini può essere normalizzato esprimendolo in rapporto al suo valore massimo \( \frac{k-1}{k} \), sarà indicato con \( G^{\star} \) e varia in \( [0, 1] \):

$$
\boxed{G^{\star} = \left( 1 - \sum_{k=1}^{K}f_k^2\right)\frac{k}{k-1}.}
$$


18. Indice di Gini: esempio

Consideriamo il carattere tipo di diploma osservato sul collettivo dei 255299 studenti diplomati nel a.s. 20\/21 e codificato in undici modalità a cui è associata la seguente distribuzione delle frequenze assolute e relative:


Tipo diploma     n   
f 1/k \(k^2\)
Liceo classico 8'470 0.033 0.091 0.0011
Liceo scientifico 64'302 0.252 0.091 0.0634
Liceo linguistico 8'505 0.033 0.091 0.0011
Liceo delle scienze umane 7'907 0.031 0.091 0.0010
Liceo musicale e coreutico 1'630 0.006 0.091 0.0000
Liceo artistico 7'199 0.028 0.091 0.0008
Liceo (eur. e intern) 864 0.003 0.091 0.0000
Tecnico - settore economico 32'160 0.126 0.091 0.0159
Tecnico - settore tecnologico 75'798 0.297 0.091 0.0881
Professionale - settore industria 14'650 0.057 0.091 0.0033
Professionale - settore servizi 33'814 0.132 0.091 0.0175
Totale 255'299 1.0 1.0
0.1922

Di conseguenza \( G = 1 - 0.1922 = {\bf 0.8078} \)

e \( G^{\star} = 0.8078 \times \frac{11}{11-1}={\bf 0.8885} \).