Teorema di scomposizione della devianza
Sia \[X: x_1, x_2, \cdots, x_N\] una generica variabile con media uguale \(\bar{x}\) e varianza \(\sigma^2\), dimostriamo che se scomponiamo la serie in \(K\geq 2\) sottogruppi, aventi numerosità \(n_1, n_2, \cdots, n_K\) e medie \(\bar{x}_1,\bar{x}_2,
\cdots \bar{x}_K\), la devianza (ma lo stesso vale per la varianza) totale è data dalla somma delle devianze nelle classi e la devianza fra le classi.
Dimostrazione (per \(K=2\) ma valida per qualsiasi \(K<N\))
Ricordiamo che la media totale \(\bar{x}\) si può anche definire come media aritmetica ponderata delle medie parziali:
\[
\bar{x} = \frac{n_1\bar{x}_1 + n_2\bar{x}_2}{n_1+n_2}
\]
Consideriamo la seguente differenza:
\[\underbrace{\sum_{i=1}^{N}{(x_i - \bar{x})^2}}_{\text{Devianza Totale}} - \underbrace{\sum_{i=1}^{n_1}{(x_i - \bar{x}_1)^2} - \sum_{i=n_1+1}^{n_1 + n_2}{(x_i - \bar{x}_2)^2}}_{\text{Devianza nei gruppi}}\]
da cui, applicando la formula alternativa per il calcolo della devianza a tutti i termini, abbiamo
\[\color{red}{\cancel{\sum_{i=1}^{N}{x_i^2}}} - N\bar{x}^2 - \color{red}{\cancel{\sum_{i=1}^{n_1}{ x_i^2}}} + n_1\bar{x}_1^2 - \color{red}{\cancel{\sum_{i=n_1+1}^{n_1+n_2}{x_i^2}}} + n_2\bar{x}_2^2 = n_1(x_1^2 - \bar{x}^2) + n_2(x_2^2 - \bar{x}^2).\]
Si osserva che per \(K\ge 2\) la quantità che resta, la Devianza fra i gruppi, può essere indicata come:
\[\sum_{j=1}^{K}{n_j(\bar{x}_j - \bar{x})^2} = n_1(x_1^2 - \bar{x}^2) + n_2(x_2^2 - \bar{x}^2) + \cdots + n_K(x_K^2 - \bar{x}^2)\]
Questi passaggi ci dimostrano in via del tutto intuitiva che la differenza fra la devianza totale e la somma delle devianze nei gruppi non è una quantità pari a \(0\). O meglio, esiste una sola circostanza in cui la somma delle devianze parziali (devianze
nei gruppi) equivale alla devianza totale: si deve verificare che la devianza fra i gruppi è \(0\), ovvero le medie di tutti i gruppi sono uguali fra loro e quindi anche uguali alla media totale.
Dividendo tutti i termini dell'espressione per \(N\) la dimostrazione vale anche per la varianza.