Unit 1 - Cenni di Inferenza Statistica

Sito: Federica Web Learning - LMS
Corso: Statistica Psicometrica
Unit: Unit 1 - Cenni di Inferenza Statistica
Stampato da: Utente ospite
Data: giovedì, 5 giugno 2025, 05:54

1. Il processo inferenziale /1

L’inferenza statistica
L’Inferenza statistica è un processo logico induttivo grazie al quale è possibile trarre delle conclusioni su una popolazione statistica a partire da una sottopopolazione che viene detta campione.
In virtù di questa definizione (piuttosto ampia) è evidente che questo processo impone che siano note le relazioni che sussistono fra la popolazione ed il campione.

2. Il processo inferenziale /2

Popolazione e campione
Ricordiamo che sotto il profilo dell’analisi statistica, quando si parla di popolazione il nostro interesse è rivolto alla descrizione della popolazione rispetto ad un carattere attraverso un indice: tendenza centralevariabilità, ...
Abbiamo imparato a riassumere un carattere attraverso indici statistici, attraverso i quali siamo poi in grado di desumere la distribuzione del carattere nella popolazione.
Vogliamo poter esprimerci, anche in assenza di una parte importante del nostro collettivo, sulla distribuzione del carattere attraverso l’informazione che si può desumere dal campione.

3. Il processo inferenziale /3

Data una popolazione ed un generico carattere \(X\) che sia su di essa osservabile, il nostro grado di conoscenza rispetto a questo carattere può classificarsi su tre livelli (dal più alto al più basso):

  1. si conosce la distribuzione e di conseguenza se ne conoscono tutte le statistiche
  2. non si conosce la distribuzione ma è possibile ragionevolmente assumere che questa sia bene esprimibile attraverso un modello noto a meno dei suoi parametri
  3. non si ha nessuna conoscenza e non si possono fare ipotesi

4. Il processo inferenziale /4

Possibili livelli di conoscenza:

  • si conosce la distribuzione e di conseguenza se ne conoscono tutte le statistiche (tutti i momenti) non v’è alcuna ragione perché si abbia un processo inferenziale poiché tutto è già noto;
  • non si conosce la distribuzione, ma è possibile ragionevolmente assumere che questa sia bene esprimibile attraverso un modello noto a meno dei suoi parametri, il nostro obiettivo sarà di individuare delle funzioni in grado di darci informazioni attendibili sui parametri e sulla base di queste decidere per l’intera popolazione;
  • non si ha nessuna conoscenza e non si possono fare ipotesi circa la forma della distribuzione, tutta l’informazione a disposizione è nel campione.

Noi cominciamo con occuparci del caso 2, dove la forma della distribuzione è nota (o si assume che lo sia) e uno o più parametri sono incogniti.

5. Il processo inferenziale /5

Data una popolazione ed un carattere \(X\) su di essa osservabile, estraendo in modo casuale una unità statistica da \(X\) assumeremo che il valore più probabile \(X = x\) che andremo ad osservare sarà in corrispondenza della frequenza più alta e poi via via, in corrispondenza di modalità con frequenze più basse, avremo probabilità più basse di estrarre il valore.
Estrarre da una popolazione equivale ad eseguire esperimenti aleatori che hanno per spazio campionario l’insieme dei valori osservabili e per funzione di densità di probabilità proprio la distribuzione delle frequenze relativa alla popolazione.
Possiamo quindi desumere che, estraendo in modo casuale da una popolazione nota, dobbiamo assumere come variabile casuale di riferimento proprio la distribuzione del nostro carattere all’interno della popolazione.
Se l’estrazione è con reintroduzione (detta anche bernulliana), la variabile casuale che descrive la popolazione resta sempre immutata (identica a se stessa), allora ci attendiamo sempre le medesime probabilità per tutte le estrazioni.

6. Il processo inferenziale /6

Il campione casuale
>Sia \(X\) un generico carattere e sia \(f(x)\) la sua distribuzione, che assumiamo essere nota a meno dei parametri, si definisce campione casuale un insieme \(X_1, X_2, \dots , X_n\) di variabili aleatorie (o casuali) indipendenti aventi tutte la distribuzione \(f(x)\).

Poichè il campione è un insieme di variabili aleatorie, qualsiasi operazione che viene fatta a partire da un campione determinerà ancora una variabile aleatoria come trasformazione delle variabili aleatorie campionarie.
Questo è vero in virtù del fatto che, essendo i campioni infiniti, la probabilità di avere due volte lo stesso campione è nulla, ad ogni estrazione si presume di ottenere un nuovo campione e quindi anche una diversa trasformazione.

7. Il processo inferenziale /7

Le statistiche campionarie
Consideriamo il campione \(X_1, X_2, \dots , X_n\), qualsiasi trasformazione di esso produce una nuova variabile casuale (che ovviamente dipende dalla distribuzione della \(X\)).
Le trasformazioni che calcolano indici statistici (come la media, la mediana, la varianza,...) si chiameranno statistiche campionarie.
Abbiamo quindi, per esempio, la media aritmetica (\(\bar{x}\)), e la media campionaria, che indicheremo con \(\bar{X}_{(n)}\) assumendo che \((n)\) indichi la numerosità campionaria (in generale la notazione che riporta alla numerosità campionaria di omette se non indispensabile).
Solo dopo aver eseguito l’estrazione avremo il campione osservato, che è un collettivo statistico. Attraverso l’estrazione del campione osservato si assegna un valore a ciascuna \(X_i\): \(X_1 = x_1, X_2 = x_2, \dots , X_n = x_n\) e si potrà calcolare \(\bar{x}\), la media del campione, come determinazione di \(\bar{X}_{(n)}\).
Quindi:
La media aritmetica \(\bar{x}\) di un collettivo è un numero. La media campionaria \(\bar{X}\) è una funzione.

8. Variabili casuali campionarie

  • Le variabili casuali naturali, come la v.c. di Bernulli, la Binomale o la Normale sono state definite sulla base di evidenze empiriche o su spazi campionari associati ad esperimenti aleatori reali: il lancio di un dado, per esempio.
  • La variabili casuali campionarie sono ottenute attraverso trasformazioni di variabili casuali naturali o di variabili casuali campionarie. Una variabile casuale campionaria può riferirsi ad una statistica delle popolazione (esempio mediana campionaria) o ad un parametro della popolazione, il tal caso la variabile casuale campionaria è anche uno stimatore del parametro. Del concetto di stimatore si parlerà più avanti.

9. Variabili casuali campionarie: somma campionaria /1

La v.c. somma campionaria
Sia \(\{X_1, X_2, \dots , X_n\}\) un campione casuale (una serie di v.c. indipendentia) con \(X\) non necessariamente nota, ma con valore atteso (media) \(E[X] = \mu\) e varianza \(E[X^2-\mu^2] = \sigma^2 \), si definisce somma campionaria la variabile casuale \(W\):

\[ W = \sum_{i=i}^n X_i \]

aSi assume un campionamento con reintroduzione e pertanto la determinazione di ciascuna \(X_i\) non ha alcuna influenza sulla probabilità delle altre.

10. Variabili casuali campionarie: somma campionaria /2

Valore atteso della v.c. \(W\)
Trattandosi di variabili casuali i.i.d. (identicamente e indipendentemente distribuite), ricorrendo alle proprietà definite per la media, si dimostra facilmente che il valore atteso di \(W\) è dato da \(n\mu\), infatti

\[ E[W] = E\left[ \sum_{i=1}^n X_i \right] \]

L’operatore \(E[ \, ]\) è un operatore lineare e può essere distribuito all’interno della sommatoria.
Poiché le \(X_i\) sono i.i.d. si ha

\[E[W] = \sum_{i=1}^n E[X_i] = \sum_{i=1}^n\mu = n\mu .\]

Il \(\boxed{\text{valore atteso di } X_i}\) è uguale a \(\mu\) per tutte le \(X_i\) poiché siamo sotto l’ipotesi i.i.d..

11. Variabili casuali campionarie: somma campionaria /3

Stabilito che \(\mathrm{E}[W] = n\mu\), dimostriamo che la varianza di \(W\) è uguale a \(n\sigma^2\) sotto la condizione di v.c. i.i.d..

La varianza della v.c. somma campionaria

  • \(\sigma_W^2 = \mathrm{E}[(W - \mathrm{E}[W])^2] = \mathrm{E}[(W^2 - \mathrm{E}[W]^2)]\)
  • Andando a sostituire \(W\) con \(\sum_{i=1}^{n}{X_i}\) abbiamo che  \(\color{brown}{\mathrm{E}[(\sum_{i=1}^{n}{X_i})^2 - ([\mathrm{E}[\sum_{i=1}^{n}{X_i}])^2]}\).
  • Osserviamo che \(\mathrm{E}[(\sum_{i=1}^{n}{X_i})^2] = \mathrm{E}[(X_1 + X_2 + \cdots + X_n)^2]\) ed è il quadrato di un polinomio e pertanto (esemplificando a \(n=3\)) abbiamo che
    \[\begin{array}{rcl}\mathrm{E}\left[\left(\sum_{i=1}^{3}{X_i}\right)^2\right] &=&  \mathrm{E}\left[X_1^2 + X_2^2 + X_3^2 + 2X_1X_2 + 2X_1X_3 + 2X_2X_3\right] \\ \, &=& \mathrm{E}[X^2] + \mathrm{E}[X^2] + \mathrm{E}[X^2] + 2\mathrm{E}[X^2] + 2\mathrm{E}[X^2] +  2\mathrm{E}[X^2]  \\[6pt]  \, &=& n\times n\mathrm{E}[X^2] \end{array} \]
  • È da notare che poiché la variabili sono identiche e indipendenti tutti i termini \(2\mathrm{E}[X_iX_{i^{\prime}}]=2\mathrm{E}[X_i^2]\) e quindi \(\color{brown}{\mathrm{E}[n^2{X}^2 - n^2\mu^2] = n\mathrm{E}[(X - \mu)^2] = n\sigma_X^2}\).

12. Proprietà della riproduttività

Sia X una generica variabile casuale la cui \(f(x | \theta)\) è nota, diremo che X gode della proprietà della riproduttività rispetto alla somma se la v.c. \(W_n = (X_1 + X_2 + \dots + X_n)\) si distribuisce  ancora come \(f(x | \theta')\).

Media e varianza della somma campionaria
Gli indici di tendenza centrale e variabilità relativi alla v.c. somma campionaria \(W_n\) (come abbiamo già visto) sono

  • \(\mu_{W_n} = n\mu\)
  • \(\sigma^2_{W_n} = n\sigma^2\)

Somma campionaria per \(X \sim N(\mu, \sigma^2)\)
Se \(X \sim N(\mu, \sigma^2) allora \(W_n \sim N(n\mu, n\sigma^2 )\)

13. Teorema del limite centrale

Sia \(U(n)\) una successione delle v.c. \(X_1, X_2, \dots, X_n\) (esempio: \(U_ {(1)} = X_1,\) \(U_{(2)} = X_1 + X_2,\) \(\dots,\) \(U_{(n)} = X_1 + X_2 + \dots + X_n\)) con \(X_i\) identiche e indipendenti tali che \(E[X_i] = \mu\) e \(E[(X_i − \mu)^2] = \sigma^2\), \(U_{(n)}\) converge in distribuzione ad una v.c. gaussiana per \(n \to \infty\).

In altre parole, il Teorema afferma che qualsiasi media campionaria \(\bar{X}\), se \(X\) ha media e varianza finite, indipendentemente dalla distribuzione di \(X\), tende a distribuirsi secondo una v.c. Normale (converge ad in distribuzione ad una v.c. Normale).

14. Il processo inferenziale /8

Le stime
E' ragionevole assumere che le statistiche campionarie possano dare informazioni circa le statistiche dell’intera popolazione. Se hanno questa capacità verranno dette stimatori.

Stime di parametri
Se la statistica è anche un parametro (come nel caso della media aritmetica per la distribuzione normale) allora lo stimatore è detto anche stimatore parametrico.

15. Stime e stimatori /1

A proposito di stime e stimatori
Fin ora abbiamo visto i seguenti concetti:
  • uno stimatore è una variabile casuale utilizzata per stimare una data caratteristica \(\theta\) della popolazione;
  • lo stimatore di \(\theta\) è una funzione definita nello spazio parametrico della distribuzione di partenza: \(T = f(X_1, X_2, \dots , X_n : \theta)\);
  • il valore assunto da uno stimatore in corrispondenza di un particolare campione è detto stima e indicato con \(t = f(x_1, x_2, \dots , x_n)\).

  • Lo spazio parametrico è l’insieme di tutti i possibili valori di \(\theta\).
  • Un campione casuale è un insieme di v.c. riconducibili ad un variabile distribuita secondo una certa funzione e governata da un insieme di parametri: spazio dei dati.
  • Lo stimatore - quindi - è un'applicazione dello spazio campionario nello spazio parametrico.

16. Stimatori /1

Per ottenere stime dei parametri esistono molti metodi.

Stima parametrica
Si parla di stima parametrica quando l’attenzione è focalizzata sui parametri.
Si presume che sia nota la distribuzione della variabile a meno dei suoi parametri.
Un campione può essere anche impiegato per ottenere stime relative ad altre statistiche della distribuzione che non siano necessariamente parametri.
Si può utilizzare un campione per determinare la mediana campionaria o il minimo campionario. In questi casi si ricorre allo stimatore naturale.

Stimatore naturale
Si definisce Stimatore Naturale lo stimatore che corrisponde alla funzione che si utilizza per la determinazione della statistica per la popolazione.
Anche per i parametri è possibile utilizzare lo stimatore naturale.

17. Stimatori /2

Questo corso non affronterà il problema relativo ai metodi di stima, ma si limita solo ad elencare i più importanti metodi per la stima dei parametri.

  1. metodo dei momenti
  2. metodo della massima verosimiglianza
  3. stima Bayesiana
  4. stima minmax
  5.  . . . 

18. Stimatori e stime /2

  • Assumiamo che \(X \sim D(\theta)\) sia una variabile che si connota secondo una generica distribuzione \(D\) e che \(\theta\) è incognito.
  • Sia \(X_1, X_2, \dots , X_n\) un campione casuale semplice (o bernulliano) proveniente da \(X\) in che modo questo campione può essere utile per avere informazioni su \(\theta\)?
  • Possiamo definire delle funzioni sullo spazio campionario di \(X\), per un determinato valore di \(n\), che generano valori sullo spazio parametrico.
  • Queste funzioni si definiscono stimatori e si indicano come
    \[ T_{(n)} = f(X_1, X_2, \dots , X_n|\theta) \]e si legge in questo modo: \(T_{(n)} = f(X_1, X_2, \dots , X_n|\theta)\) è uno stimatore del parametro \(\theta\) della v.c. \(X\) per campioni di ampiezza \(n\). \(T_{(n)}\) è una v.c. campionaria, cioè una funzione del campione e non è un numero.
  • Una volta fatta l’estrazione, avremo il campione osservato \(x_1, x_2, \dots , x_n,\) sostituendo nella funzione dello stimatore si ha che
    \[ t_{(n)} = f(x_1, x_2, \dots , x_n|\theta) \]è la stima di \(\theta\) ottenuta a partire da \(T_{(n)}\) dato il campione \(\{x_1, x_2, \dots , x_n\}\). Chiaramente \(t_{(n)}\) è un valore (un numero!).

19. Media campionaria

Se assumiamo che \(X \sim (\mu, \sigma^2)\) e dato un campione casuale \(\{X_1, X_2, \dots , X_n\}\), la quantità

\[ \bar{X}  = \frac{1}{N} \sum_{i=1}^n X_i \]

prende il nome di media campionaria ed è lo stimatore naturale di \(\mu\).

  • \(\dfrac{1}{n}\) è una costante
  • \(\displaystyle \sum_{i=1}^n X_i\) è la v.c. somma campionaria

v.c. Media Campionaria
Poiché la media campionaria è una trasformazione di \(n\) variabili casuali è ovviamente anch’essa una variabile casuale. La media campionaria non è altro che una trasformazione della v.c. somma campionaria, è detta, infatti, stimatore naturale di \(\mu\) poiché è la funzione che avremmo utilizzato per calcolare \(\mu\) se avessimo avuto a disposizione l’intera popolazione:

\[ \mu = \frac{1}{N} \sum_{i=1}^N x_i \]


20. Varianza campionaria

Dato un campione casuale \(\{X_1, X_2, \dots , X_n\}\), la quantità

\[\hat{S}^{2} = \frac{1}{n - 1} \sum_{i=1}^n (X_i − \bar{X})^2 \]

prende il nome di varianza campionaria.
Si osservi che:

\[ \hat{S}^{2} = \frac{1}{n-1}\sum_{i=1}^{n}{(X_i - \bar{X})^2} = \frac{1}{n(n-1)}\left(n\sum_{i=1}^{n}{X_i^2} - n\bar{X}^2\right) \]

V.C. Varianza Campionaria
Poiché la varianza campionaria è una trasformazione di \(n\) variabili casuali è ovviamente anch’essa una variabile casuale.

21. Momenti Campionari e Statistiche Campionarie

Osservazione 1
Notare che per i parametri della popolazione si utilizzano generalmente le lettere dell’alfabeto greco \((\mu, \sigma^2, \dots)\) mentre per le statistiche campionarie si utilizzano le lettere dell’alfabeto latino \((\bar{X}, S^2, \dots)\).

Osservazione 2
In corrispondenza di ciascun momento esiste un momento campionario ed in corrispondenza di ciascuna statistica esiste la statistica campionaria (Es: mediana \(\rightarrow\) mediana campionaria).

22. Distribuzioni campionarie

Se sono soddisfatte delle condizioni, la distribuzione di una statistica campionaria può essere nota o approssimabile ad una funzione nota, come nel caso di \(\bar{X}\).

La media campionaria
Nel caso della media campionaria abbiamo che:

  1. se la variabile \(X\), da cui è stato estratto il campione si connota secondo una Normale anche la media campionaria, per la proprietà della riproduttività di cui gode la Normale, sarà ancora una normale
  2. se la distribuzione della variabile \(X\) non è Normale, ma la numerosità campionaria è sufficientemente grande, diremo che per il Teorema del limite centrale la v.c. campionaria media campionaria converge ad un v.c. Normale per \(n\to\infty\)

23. Proprietà degli stimatori /1

Nella logica dell’inferenza statistica la nostra conoscenza della popolazione passa attraverso gli stimatori e si realizza attraverso le stime.
E' auspicabile, pertanto, che gli stimatori siano in grado di fornire informazioni il più possibile “precise”.
Nell’ottica della stima parametrica è assolutamente indispensabile essere sicuri di potersi fidare delle stime.
Sapere, in altre parole, che il valore prodotto dallo stimatore esprime con buona approssimazione, o almeno con buona probabilità, il valore del parametro incognito.

24. Proprietà degli stimatori /2

Di quali stimatori ci si può fidare?
Come facciamo a decidere se uno stimatore è sufficientemente affidabile per la stima di un parametro?
E se abbiamo più di uno stimatore qual è il migliore?
Esiste uno stimatore che in assoluto è migliore degli altri?

Uno stimatore è un buon stimatore se gode di alcune proprietà:
  • correttezza o non distorsione
  • efficienza
  • consistenza
  • sufficienza

25. Correttezza o non-distorsione /1

Uno stimatore gode della proprietà della correttezza (o non distorsione) se la sua speranza matematica coincide con il parametro da stimare.
Sia \(T(X_n) = f(X_1, X_2, \dots , X_n; \theta)\) uno stimatore di \(\theta\), diremo che \(T(X_n)\) è corretto o non distorto se:

\[E[T(X_n)] = \theta\]

per qualsiasi valore di \(\theta\).

Uno stimatore corretto è in grado di produrre stime che mediamente coincidono con il parametro da stimare.

26. Correttezza o non-distorsione /2

Lo stimatore media campionaria è non distorto rispetto a \(\mu\)
Sia \(\{X_1, X_2, \dots , X_n\}\) un campione casuale da una popolazione con media \(\mu\). Lo stimatore media campionaria sarà definito come:

\[ \textstyle{\bar{X}_{(n)} = \dfrac{1}{n}({X_1 + X_2 + \cdots + X_n})}, \]

la cui speranza matematica è:

\[ E[\bar{X}_{(n)}] = E\left[\dfrac{X_1 + X_2 + \cdots + X_n}{n}\right] ; \]

distribuendo l’operatore speranza matematica abbiamo:

\[ {\textstyle E[\bar{X}_{(n)}] = \dfrac{1}{n}\left({E[X_1] + E[X_2] + \cdots + E[X_n]}\right)} ; \]

poiché \( E[X_1]=E[X_2]= \cdots = E[X_n] = \mu \) , si ha:

\[ {\displaystyle E[\bar{X}_{n}] = \dfrac{\mu + \mu + \cdots + \mu}{n} = \dfrac{n\mu}{n}=\mu  } \quad \blacksquare \]

27. Correttezza o non-distorsione /3

Lo stimatore naturale della varianza è distorto rispetto a \(\sigma^2\)
Sia \(\{X_1, X_2, \dots , X_n\}\) un campione casuale da una popolazione con varianza \(\sigma^2\).
Lo stimatore naturale della varianza sarà definito come:

\[ S^{2}_{(n)} = \frac{1}{n}\sum_{i=1}^{n}{(X_i - \bar{X}_{(n)})^2}, \]

notare che per definire lo stimatore della varianza dobbiamo utilizzare \(\bar{X}_{(n)}\) al posto di \(\mu\), che è esso stesso uno stimatore, ma dobbiamo imporre il seguente vincolo:

\[ \mathrm{E}[X_i] = \mathrm{E}[\bar{X}] =\mu \hspace{1.5cm} \forall X_i:  i=1,2,\cdots , n \]

Il valore atteso di \(S^2_{(n)}\) è esprimibile come:

\[ \boxed{\mathrm{E}[S^{2}_{(n)}] = \mathrm{E}\left[{(X_i - \bar{X}_{(n)})^2}\right]} \]

Trattandosi di una funzione quadratica non è possibile distribuire l’operatore speranza matematica.

28. Correttezza o non-distorsione /4

Aggiungiamo e sottraiamo la quantità \(\mu\) nella parte destra dell’espressione

\[ \mathrm{E}[S^{2}_{(n)}] = \mathrm{E}\left[{\left((X_i - \mu)-(\bar{X}_{(n)} -\mu)\right)^2}\right] \]

si ricava (dalle proprietà della varianza)

\[ \mathrm{E}[S^{2}_{(n)}] = \mathrm{E}\left[{(X_i - \mu)^2} - (\bar{X}_{(n)} -\mu)^2\right] \]

Osserviamo che:

  • \(\mathrm{E}\left[{\left((X_i - \mu)-(\bar{X}_{(n)} -\mu)\right)^2}\right]\) è la varianza di \((X_i - \bar{X})\) e quindi si può scrivere utilizzando la formula ridotta della varianza come \(\mathrm{E}\left[(X_i - \mu)^2\right] - \mathrm{E}\left[(\bar{X}_{(n)} -\mu)^2\right]\)
  • \(\mathrm{E}\left[(X_i - \mu)^2\right]=\sigma^2\)
  • \(\displaystyle{\mathrm{E} \left[(\bar{X}_{(n)} -\mu)^2 \right] =\frac{\sigma^2}{n}}\)

29. Correttezza o non-distorsione /5

Dalla precedente si ricava che:

\[ \mathrm{E}[S^{2}_{(n)}] = \left(\sigma^2 - \frac{\sigma^2}{n}\right) = \sigma^2 \left(\frac{n-1}{n}\right) \]

\[ \mathrm{E}\left[\frac{1}{n-1}{\sum_{i=1}^{n}{(X_i - \bar{X}_{(n)})^2}}\right] = \sigma^2 \]

Uno stimatore corretto di \(\sigma^2\)

\[ \mathrm{E}\left[\frac{1}{n-1}{\sum_{i=1}^{n}{(X_i - \bar{X}_{(n)})^2}}\right] = \sigma^2 \]

Lo stimatore Varianza Campionaria è indicato con

\[\hat{S}^2_{(n)}=\frac{1}{n-1}\sum_{i=1}^{n}{(X_i - \bar{X}_{(n)})^2}\]

è uno stimatore corretto per \(\sigma^2\).

30. Efficienza /1

Sapere che uno stimatore gode della proprietà della correttezza non è di alcun conforto finché non si è in grado di stabilire in che misura si possono registrare gli scostamenti di \([T(X_1, X_2, \dots , X_n) - \theta]\).

Errore Quadratico Medio
Sia \(t = T(X_1, X_2, \dots , X_n)\) uno stimatore di \(\theta\), la quantità

\[E[(t - \theta)^2]\]

viene chiamata Errore Quadratico Medio dello stimatore \(T(X_1, X_2, \dots , X_n)\).

NOTAZIONE:
L’errore quadratico medio di \(T(X_1, X_2, \dots , X_n)\) rispetto a \(\theta\) viene anche indicato con MSE (Mean Squared Error).

31. Efficienza /2

Osservazione:
Si osservi che:

\[ \mathrm{MSE}(\theta) = \mathrm{var}\left(T(X_{(n)})\right) + \left\{t_{(\theta)} - \mathrm{E}[T(X_{(n)})] \right\}^2, \]

dove con \(T(X_{(n)})\) abbiamo indicato lo stimatore \(T(X_1, X_2, \dots , X_n)\) e con \(t(\theta)\) la stima corrispondente.

Dimostrazione:

\[ \begin{array}{l} \mathrm{MSE}(\theta) &=& \mathrm{E}\left[(T(X_{(n)}) - t_{(\theta)})^2 \right]\\[3pt]  &=& \mathrm{E}\left[\left[(T(X_{(n)}) - \mathrm{E}[T(X_{(n)})]) - (t_{(\theta)} -\mathrm{E}[T(X_{(n)})]) \right]^2\right]\\[3pt] &=& \mathrm{E}[(T(X_{(n)}) - \mathrm{E}[T(X_{(n)})])^2] -2\mathrm{E}[(T(X_{(n)}) - \\[3pt] &   &  - \mathrm{E}[T(X_{(n)})])](t_{(\theta)} - \mathrm{E}[T(X_{(n)})])+  \mathrm{E}[(t_{(\theta)} -\mathrm{E}[T(X_{(n)})])^2]\\[3pt]  &=& \mathrm{var}(T(X_{(n)})) + \left\{t_{(\theta)} -\mathrm{E}[T(X_{(n)})] \right\}^2 \quad \blacksquare \end{array} \]

Abbiamo dimostrato che l’Errore Quadratico Medio è dato dalla somma di due quantità non negative che sono:

  • la varianza dello stimatore
  • la distorsione al quadrato

\(\left\{t(\theta) − E[T(X_{(n)})]\right\}\) rappresenta proprio la distorsione di \(T(X_{(n)})\).