Vai al contenuto principale
Aggregazione dei criteri
Visualizzare

41. Correlazione punto bi-seriale

Siano \(X\) e \(Y\) due caratteri tali che \(X\) è una variabile dicotomica, ovvero assume solo valori in \(\{0, \, 1\}\) e \(Y\) e una variabile continua definita in \(\mathbb{R}\) o in un suo sottoinsieme  il coefficiente di correlazione 

\[ \begin{eqnarray}\nonumber \rho_{pb} = \frac{\sum_{i=1}^{n}(x_i -\bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2\sum_{i=1}^{n}(y_i - \bar{y})^2}} \end{eqnarray} \]

è detto coefficiente di correlazione punto-biseriale. Si osserva che \(\rho_{pb}\) ha la stessa formulazione di \(\rho\) e come \(\rho\) varia fra \(-1\) e \(1\).
Tuttavia è interessante osservare che se il numeratore viene riscritto secondo la seguente formulazione \(\sum_{i=1}^{n}x_iy_i - n\bar{x}\bar{y}\), moltiplicando le \(x_i\) per le \(y_i\) si sommeranno solo i valori corrispondenti alle osservazioni che presentano il valore \(1\) nella variabile \(X\) e il prodotto \(n\bar{x}{Y}\) è una frazione della media di \(Y\) proporzionale a \(\sum_{i=1}^{n}x_i/n\).  Stesso discorso si può fare per il denominatore: viene presa in considerazione una frazione della varianza proporzionale ai soggetti che presentano valor \(1\) in \(X\).
Ricordando che \((\bar{y}\mid 1 - \bar{y}) = -(\bar{y}\mid 0 - \bar{y})\), il coefficiente \(\rho_{pb}\) risulta essere una misura normalizzata dello scostamento dalla media generale \(\bar{y}\) delle medie condizionate (\(\bar{y}\mid 1\)) o (\(\bar{y}\mid 0\)).

loader image