Les corrélations avec la PROC CORR

La procédure PROC CORR permet de calculer des coefficients de corrélation entre variables numériques.

Par défaut, la procédure édite la matrice des corrélations linéaires :

Formule des coefficients de corrélation de Pearson

Alors il existe une relation linéaire entre X et Y si et seulement si | rXY | = 1.

La procédure édite également la p-value relative au test de significativité de chaque coefficient. Si cette valeur est inférieure à 0,05 on peut conclure que le coefficient est significativement différent de zéro au seuil de 5%.

Autres mesures de la dépendance entre variables qualitatives :

On peut également dans ce contexte demander l'édition du alpha de Cronbach, qui, en quelque sorte, mesure la "cohérence interne" de la somme des variables considérées dans la procédure. La valeur maximale de a est 1. Si a vaut 1, c'est que toutes les variables sont liées linéairement deux à deux.

La PROC CORR offre une autre possibilité pour mesurer la dépendance entre deux variables quantitatives X et Y : la statistique D de Hoeffding. On n'explicite pas le détail de la statistique ici, il suffit pour le moment de savoir que plus D est proche de 1, plus il existe une dépendance forte entre X et Y.

Il est également possible de demander les coefficients de corrélation partielle (corrélation corrigée de l'influence de certaines variables), bien utiles pour éliminer les effets de structure. Le coefficient de corrélation partielle entre X et Y corrigé de l'influence de Z1,...,Zp est égal au coefficient de corrélation linéaire entre les résidus eX et eY des régressions de X et Y sur Z1,...,Zp.

Le tau-b de Kendall et le coefficient de corrélation des rangs de Spearman :

D'autre part, il est possible d'obtenir le coefficient tb de Kendall ou le coefficient de corrélation des rangs de Spearman, qui mesurent la corrélation entre deux variables ordinales :

Formule du Tau-b de Kendall


n2 est le nombre total de paires d'individus (i ; j)
C est le nombre de paires (i ; j) concordantes , c'est-à-dire telles que i et j sont classés dans le même ordre pour les variables X et Y
D est le nombre de paires discordantes
EX est le nombre d'ex-aequo au moins pour X, c'est-à-dire Xi = Xj
EY est le nombre d'ex-aequo au moins pour Y

Si | tb | = 1, il existe alors une relation biunivoque entre X et Y. On pourra dire que X est une fonction strictement (dé)croissante de Y et vice versa.

Pour le coefficient de corrélation des rangs de Spearman, on commence par calculer rangX et rangY ; rangX vaut 1 pour la plus grande valeur de X, 2 pour la deuxième plus grande valeur de X, etc...
Et alors rs est le coefficient de corrélation linéaire entre rangX et rangY.

Remarque : Comme il s'agit d'une procédure qui traite des variables numériques, on ne peut pas lui demander de traiter des variables caractères ! Les coefficients tb et rs seront édités sur des variables numériques auxquelles on aura appliqué un format.

Tous les autres coefficients relatifs à la corrélation entre variables qualitatives s'obtiennent avec la PROC FREQ, dont la raison d'être est justement le traitement statistique des variables qualitatives.

PROC CORR data= <options> ;
  VAR liste_variables ;
  < WITH liste_variables ; >
  < BY liste_variables ; >
  < FREQ variable ; >
  < PARTIAL liste_variables ; >
  < WEIGHT variable ; >

Les options

Voir le tableau récapitulatif des options de la PROC CORR

Par défaut la procédure calcule les coefficients de corrélation linéaire dits de Pearson.

Pour obtenir le tb de Kendall, il faut préciser l'option KENDALL.
Pour obtenir le coefficient de corrélation des rangs de Spearman, il faut préciser l'option SPEARMAN.
Enfin pour obtenir le D de Hoeffding, il faut préciser l'option HOEFFDING.
Notons qu'alors la matrice des corrélations linéaires n'est plus éditée.
Si on souhaite l'obtenir tout de même, il faut préciser l'option PEARSON.

On peut récupérer les corrélations linéaires dans une table grâce à l'option OUTP= , et pareil pour les autres coefficients grâce à OUTK= , OUTS= et OUTH= .

Parmi les options qui s'utilisent avec l'option PEARSON, mentionnons l'option COV qui édite la matrice des covariances et l'option NOCORR qui supprime le calcul des corrélations linéaires.

Parmi les autres options, la plus fréquemment utilisée est l'option RANK, qui permet d'éditer les corrélations par ordre décroissant. Si le nombre de variables croisées est important est que l'on ne veut garder dans le listing que les 5 meilleures corrélations (par exemple), on précisera l'option BEST=5.


Les instructions

L'instruction VAR permet de préciser les variables auxquelles on s'intéresse. Elles doivent être numériques.

Par défaut, la matrice des corrélations croise toutes les variables définies dans VAR deux à deux. L'instruction WITH permet de choisir les variables qui apparaissent en ligne dans la matrice. Seront croisées uniquement chaque variable de VAR avec chaque variable de WITH.

L'instruction BY sert à distinguer des sous-groupes dans notre population. Les corrélations sont alors calculées pour chacun des sous-groupes, le découpage de la population se faisant suivant les modalités des variables précisées dans l'instruction BY.

L'instruction PARTIAL fournit la liste des variables dont on veut supprimer l'influence dans le calcul des corrélations partielles.

L'instruction WEIGHT permet de définir une variable qui servira à pondérer les observations avant le calcul des corrélations.

Lorsqu'une variable apparaît dans l'instruction FREQ, tout se passe comme si chaque observation i apparaissait v(i) fois dans la table, où v(i) est la valeur en i de la variable désignée par l'instruction FREQ.


Récapitulatif des options de la PROC CORR :

Par défaut
Ce que la procédure éditeComment le supprimer
Statistiques descriptives univariéesoption NOSIMPLE
Matrice des corrélations linéairesDéfinir une option KENDALL, SPEARMAN ou HOEFFDING sans préciser PEARSON ou encore : option NOCORR
et des niveaux de significativité de chaque coefficientoption NOPROB

 

On peut demander en plus
Ce que la procédure peut éditerComment le demander
tau-b de Kendalloption KENDALL
coefficient de corrélation des rangs de Spearmanoption SPEARMAN
mesure de liaison de Hoeffdingoption HOEFFDING
coefficient alpha de Cronbachoption ALPHA (avec option PEARSON)
matrice des covariancesoption COV (avec option PEARSON)
somme des carrés et des produitsoption SSCP (avec option PEARSON)
somme des carrés et des produits des écarts à la moyenneoption CSSCP (avec option PEARSON)
coefficients de corrélation partielleinstruction PARTIAL (sauf avec option HOEFFDING)
variances et écarts-type partielsinstruction PARTIAL (avec option PEARSON)
coefficients de Pearson pondérésinstruction WEIGHT
coefficients calculés sur des sous-populationsinstruction BY
matrice des corrélations non carréeinstruction WITH

Lecture de sortie :


                                      The CORR Procedure
                         3  Variables:    salaire    subor      anciennete

                                       Simple Statistics
Variable       N          Mean       Std Dev           Sum       Minimum       Maximum

salaire       31          1916          1132         59389     968.00000          6097
subor         31       1.96774       5.53464      61.00000             0      30.00000
anciennete    31       7.22581       4.61671     224.00000             0      18.00000

                                        Simple Statistics
                               Variable      Label
                               salaire       salaire en euros
                               subor         nombre de subordonnés
                               anciennete

                            Pearson Correlation Coefficients, N = 31
                                   Prob > |r| under H0: Rho=0

                                            salaire         subor      anciennete

                salaire                     1.00000       0.84629         0.34976
                salaire en euros                           <.0001          0.0538

                subor                       0.84629       1.00000         0.34600
                nombre de subordonnés        <.0001                        0.0566

                anciennete                  0.34976       0.34600         1.00000
                                             0.0538        0.0566

Voici l'exemple d'une sortie standard de PROC CORR. Seule l'instruction VAR a été précisée, sans aucune option.
La procédure édite des statistiques univariées sur les trois variables concernées : nombre d'observations non manquantes, moyenne, écart-type, somme, minimum et maximum, ainsi que les labels desdites variables. Ensuite, elle édite la matrice carrée des corrélations linéaires, contenant aussi les niveaux de significativité des coefficients en question.
On conclurait que la rémunération d'un employé semble assez fortement liée au nombre de subordonnés qu'il a ; ces deux variables étant liées, bien que beaucoup plus faiblement, à l'ancienneté de l'employé.


                                       The CORR Procedure
                   5  Variables:    cine     musee    bibli    theatre  concert

                            Spearman Correlation Coefficients, N = 43

          cine         cine          theatre       musee         bibli         concert
          cine          1.00000       0.21904      -0.13112      -0.12184      -0.00120

          musee        musee         bibli         concert       cine          theatre
          musee         1.00000       0.45953      -0.16705      -0.13112       0.03526

          bibli        bibli         musee         concert       theatre       cine
          bibli         1.00000       0.45953      -0.45746       0.15959      -0.12184

          theatre      theatre       concert       cine          bibli         musee
          theatre       1.00000      -0.24795       0.21904       0.15959       0.03526

          concert      concert       bibli         theatre       musee         cine
          concert       1.00000      -0.45746      -0.24795      -0.16705      -0.00120

Cette deuxième sortie a été obtenue avec les options SPEARMAN, RANK, NOSIMPLE et NOPROB.
On voit que les gens qui aiment bien aller à la bibliothèque ont tendance à être les mêmes que ceux qui aiment bien aller au musée, alors qu'ils diffèrent assez souvent de ceux qui apprécient les concerts.