Test d'égalité des moyennes avec la PROC TTEST

Nous n'étudions ici que l'aspect de la PROC TTEST qui permet de comparer les moyennes d'une certaine variable pour deux sous-populations.

Dans ce cadre, la procédure PROC TTEST permet de réaliser d'une part un test d'égalité des variances de deux sous-populations, et d'autre part deux tests d'égalité des moyennes (l'un pour le cas où les variances sont égales et l'autre pour le cas où les variances sont significativement différentes).

L'instruction VAR définit la variable sur laquelle on veut faire le test.

L'instruction CLASS induit la variable qui définit les sous-groupes.

La sortie de la PROC TTEST présente d'abord un tableau des moyennes et écart-types pour chacune des deux sous-populations, ainsi que des intervalles de confiance pour chacune de ces quatre grandeurs.

Puis le deuxième tableau présente le résultat du test d'hypothèse nulle :
(H0) : moy1 - moy1 = m.
Par défaut m=0, et le test est réalisé d'abord dans le cas d'égalité des variances puis dans le cas de variances significativement différentes. On peut définir un m non nul grâce à l'option H0.

Le dernier tableau expose le résultat du test d'égalité des variances.

Les tests réalisés par cette procédure nécessitent l'hypothèse de normalité des distributions. On commencera donc toujours par effectuer une PROC UNIVARIATE option NORMAL avec en instruction VAR la variable numérique à laquelle on s'intéresse et en instruction BY la variable qui définit les sous-groupes. Les deux tests de normalité doivent être positifs.

PROC TTEST data= <options> ;
  CLASS variable ;
  < VAR variable_numérique ;>
  < BY variable ;>
  < FREQ variable ;>
  < WEIGHT variable ;>

Les options :

L'option ALPHA= définit la valeur du seuil pour le calcul des intervalles de confiance.

L'option H0= permet de définir la valeur m telle que l'on teste si l'écart entre les moyennes est égal à m. Par défaut, m=0.

L'option COCHRAN édite l'approximation par la méthode de Cochran en plus de celle par la méthode de Satterthwaite pour le cas où les variances sont significativement différentes.

L'option CI=NONE supprime l'édition de l'intervalle de confiance pour l'écart-type.

Remarques sur les instructions :

Si l'instruction VAR est omise, le test est fait pour toutes les variables numériques de la table, sauf celles éventuellement utilisées dans les instructions BY, FREQ et WEIGHT.

Les instructions FREQ et WEIGHT fonctionnent comme dans les autres procédures qui y font appel.
Voir le descriptif de ces deux instructions.

L'instruction BY sert toujours à distinguer des sous-groupes dans la population. Les tests sont alors réalisés pour chacun des sous-groupes induits séparément.

Lecture d'une sortie standard :

proc ttest data=malib.employe;
 var salaire;
 class sexe;
run;

                                       The TTEST Procedure
                                           Statistics

                              Lower CL          Upper CL  Lower CL           Upper CL
Variable  sexe      N      Mean    Mean      Mean   Std Dev  Std Dev   Std Dev  Std Err

salaire   F         16    1208.2    1589    1969.8    527.92   714.66    1106.1   178.66
salaire   H         15    1491.7  2264.3      3037    1021.5   1395.3    2200.5   360.26
salaire   Diff (1-2)       -1482  -675.3    131.21    873.87   1097.3    1475.1   394.35

                                             T-Tests

              Variable    Method           Variances      DF    t Value    Pr > |t|

              salaire     Pooled           Equal          29      -1.71      0.0975
              salaire     Satterthwaite    Unequal      20.6      -1.68      0.1082

                                      Equality of Variances

                  Variable    Method      Num DF    Den DF    F Value    Pr > F

                  salaire     Folded F        14        15       3.81    0.0146

Il s'agit ici de comparer la rémunération moyenne des hommes à celle des femmes.
On lit que le test d'égalité des variances conclut au rejet de l'hypothèse nulle au seuil de 5%.
Ayant conclu à une différence significative des variances, on s'intéresse au test d'égalité des moyennes selon la méthode de Satterthwaite. Ici si l'on prend un seuil d'erreur de 5%, on accepte l'hypothèse nulle d'égalité des moyennes.
Mais on peut toutefois remarquer que la moyenne féminine : 1589, est bien en-dessous de la moyenne masculine : 2264,3.

En fait le problème ici, c'est qu'on ne peut raisonnablement retenir l'hypothèse de normalité de salaire sur chacun des sous-groupes.