La procédure PROC CORR permet de calculer des coefficients de corrélation entre variables numériques.
Par défaut, la procédure édite la matrice des corrélations linéaires :
Alors il existe une relation linéaire entre X et Y si et seulement si | rXY | = 1.
La procédure édite également la p-value relative au test de significativité de chaque coefficient. Si cette valeur est inférieure à 0,05 on peut conclure que le coefficient est significativement différent de zéro au seuil de 5%.
On peut également dans ce contexte demander l'édition du alpha de Cronbach, qui, en quelque sorte, mesure la "cohérence interne" de la somme des variables considérées dans la procédure. La valeur maximale de a est 1. Si a vaut 1, c'est que toutes les variables sont liées linéairement deux à deux.
La PROC CORR offre une autre possibilité pour mesurer la dépendance entre deux variables quantitatives X et Y : la statistique D de Hoeffding. On n'explicite pas le détail de la statistique ici, il suffit pour le moment de savoir que plus D est proche de 1, plus il existe une dépendance forte entre X et Y.
Il est également possible de demander les coefficients de corrélation partielle (corrélation corrigée de l'influence de certaines variables), bien utiles pour éliminer les effets de structure. Le coefficient de corrélation partielle entre X et Y corrigé de l'influence de Z1,...,Zp est égal au coefficient de corrélation linéaire entre les résidus eX et eY des régressions de X et Y sur Z1,...,Zp.
D'autre part, il est possible d'obtenir le coefficient tb de Kendall ou le coefficient de corrélation des rangs de Spearman, qui mesurent la corrélation entre deux variables ordinales :
où
n2 est le nombre total de paires d'individus (i ; j)
C est le nombre de paires (i ; j) concordantes , c'est-à-dire telles que i et j sont classés
dans le même ordre pour les variables X et Y
D est le nombre de paires discordantes
EX est le nombre d'ex-aequo au moins pour X, c'est-à-dire Xi = Xj
EY est le nombre d'ex-aequo au moins pour Y
Si | tb | = 1, il existe alors une relation biunivoque entre X et Y. On pourra dire que X est une fonction strictement (dé)croissante de Y et vice versa.
Pour le coefficient de corrélation des rangs de Spearman, on commence par calculer rangX et rangY ;
rangX vaut 1 pour la plus grande valeur de X, 2 pour la deuxième plus grande valeur de X, etc...
Et alors rs est le coefficient de corrélation linéaire entre rangX et rangY.
Remarque : Comme il s'agit d'une procédure qui traite des variables numériques, on ne peut pas lui demander de traiter des variables caractères ! Les coefficients tb et rs seront édités sur des variables numériques auxquelles on aura appliqué un format.
Tous les autres coefficients relatifs à la corrélation entre variables qualitatives s'obtiennent avec la PROC FREQ, dont la raison d'être est justement le traitement statistique des variables qualitatives.
Voir le tableau récapitulatif des options de la PROC CORR
Par défaut la procédure calcule les coefficients de corrélation linéaire dits de Pearson.
Pour obtenir le tb de Kendall, il faut préciser l'option
KENDALL.
Pour obtenir le coefficient de corrélation des rangs de Spearman, il faut préciser l'option
SPEARMAN.
Enfin pour obtenir le D de Hoeffding, il faut préciser l'option HOEFFDING.
Notons qu'alors la matrice des corrélations linéaires n'est plus éditée.
Si on souhaite l'obtenir tout de même, il faut préciser l'option PEARSON.
On peut récupérer les corrélations linéaires dans une table grâce à l'option OUTP= , et pareil pour les autres coefficients grâce à OUTK= , OUTS= et OUTH= .
Parmi les options qui s'utilisent avec l'option PEARSON, mentionnons l'option COV qui édite la matrice des covariances et l'option NOCORR qui supprime le calcul des corrélations linéaires.
Parmi les autres options, la plus fréquemment utilisée est l'option RANK, qui permet d'éditer les corrélations par ordre décroissant. Si le nombre de variables croisées est important est que l'on ne veut garder dans le listing que les 5 meilleures corrélations (par exemple), on précisera l'option BEST=5.
L'instruction VAR permet de préciser les variables auxquelles on s'intéresse. Elles doivent être numériques.
Par défaut, la matrice des corrélations croise toutes les variables définies dans VAR deux à deux. L'instruction WITH permet de choisir les variables qui apparaissent en ligne dans la matrice. Seront croisées uniquement chaque variable de VAR avec chaque variable de WITH.
L'instruction BY sert à distinguer des sous-groupes dans notre population. Les corrélations sont alors calculées pour chacun des sous-groupes, le découpage de la population se faisant suivant les modalités des variables précisées dans l'instruction BY.
L'instruction PARTIAL fournit la liste des variables dont on veut supprimer l'influence dans le calcul des corrélations partielles.
L'instruction WEIGHT permet de définir une variable qui servira à pondérer les observations avant le calcul des corrélations.
Lorsqu'une variable apparaît dans l'instruction FREQ, tout se passe comme si chaque observation i apparaissait v(i) fois dans la table, où v(i) est la valeur en i de la variable désignée par l'instruction FREQ.
Ce que la procédure édite | Comment le supprimer |
---|---|
Statistiques descriptives univariées | option NOSIMPLE |
Matrice des corrélations linéaires | Définir une option KENDALL, SPEARMAN ou HOEFFDING sans préciser PEARSON ou encore : option NOCORR |
et des niveaux de significativité de chaque coefficient | option NOPROB |
Ce que la procédure peut éditer | Comment le demander |
---|---|
tau-b de Kendall | option KENDALL |
coefficient de corrélation des rangs de Spearman | option SPEARMAN |
mesure de liaison de Hoeffding | option HOEFFDING |
coefficient alpha de Cronbach | option ALPHA (avec option PEARSON) |
matrice des covariances | option COV (avec option PEARSON) |
somme des carrés et des produits | option SSCP (avec option PEARSON) |
somme des carrés et des produits des écarts à la moyenne | option CSSCP (avec option PEARSON) |
coefficients de corrélation partielle | instruction PARTIAL (sauf avec option HOEFFDING) |
variances et écarts-type partiels | instruction PARTIAL (avec option PEARSON) |
coefficients de Pearson pondérés | instruction WEIGHT |
coefficients calculés sur des sous-populations | instruction BY |
matrice des corrélations non carrée | instruction WITH |
The CORR Procedure 3 Variables: salaire subor anciennete Simple Statistics Variable N Mean Std Dev Sum Minimum Maximum salaire 31 1916 1132 59389 968.00000 6097 subor 31 1.96774 5.53464 61.00000 0 30.00000 anciennete 31 7.22581 4.61671 224.00000 0 18.00000 Simple Statistics Variable Label salaire salaire en euros subor nombre de subordonnés anciennete Pearson Correlation Coefficients, N = 31 Prob > |r| under H0: Rho=0 salaire subor anciennete salaire 1.00000 0.84629 0.34976 salaire en euros <.0001 0.0538 subor 0.84629 1.00000 0.34600 nombre de subordonnés <.0001 0.0566 anciennete 0.34976 0.34600 1.00000 0.0538 0.0566
Voici l'exemple d'une sortie standard de PROC CORR. Seule l'instruction VAR a été précisée, sans aucune option.
La procédure édite des statistiques univariées sur les trois variables concernées :
nombre d'observations non manquantes, moyenne, écart-type, somme, minimum et maximum,
ainsi que les labels desdites variables.
Ensuite, elle édite la matrice carrée des corrélations linéaires, contenant aussi les niveaux de significativité
des coefficients en question.
On conclurait que la rémunération d'un employé semble assez fortement liée au nombre de subordonnés
qu'il a ; ces deux variables étant liées, bien que beaucoup plus faiblement, à l'ancienneté de l'employé.
The CORR Procedure 5 Variables: cine musee bibli theatre concert Spearman Correlation Coefficients, N = 43 cine cine theatre musee bibli concert cine 1.00000 0.21904 -0.13112 -0.12184 -0.00120 musee musee bibli concert cine theatre musee 1.00000 0.45953 -0.16705 -0.13112 0.03526 bibli bibli musee concert theatre cine bibli 1.00000 0.45953 -0.45746 0.15959 -0.12184 theatre theatre concert cine bibli musee theatre 1.00000 -0.24795 0.21904 0.15959 0.03526 concert concert bibli theatre musee cine concert 1.00000 -0.45746 -0.24795 -0.16705 -0.00120
Cette deuxième sortie a été obtenue avec les options SPEARMAN, RANK, NOSIMPLE et NOPROB.
On voit que les gens qui aiment bien aller à la bibliothèque ont tendance à être les mêmes que ceux qui
aiment bien aller au musée, alors qu'ils diffèrent assez souvent de ceux qui apprécient les concerts.