Nous n'étudions ici que l'aspect de la PROC TTEST qui permet de comparer les moyennes d'une certaine variable pour deux sous-populations.
Dans ce cadre, la procédure PROC TTEST permet de réaliser d'une part un test d'égalité des variances de deux sous-populations, et d'autre part deux tests d'égalité des moyennes (l'un pour le cas où les variances sont égales et l'autre pour le cas où les variances sont significativement différentes).
L'instruction VAR définit la variable sur laquelle on veut faire le test.
L'instruction CLASS induit la variable qui définit les sous-groupes.
La sortie de la PROC TTEST présente d'abord un tableau des moyennes et écart-types pour chacune des deux sous-populations, ainsi que des intervalles de confiance pour chacune de ces quatre grandeurs.
Puis le deuxième tableau présente le résultat du test d'hypothèse nulle :
(H0) : moy1 - moy1 = m.
Par défaut m=0, et le test est réalisé d'abord dans le cas d'égalité
des variances puis dans le cas de variances significativement différentes. On peut définir un m non nul
grâce à l'option H0.
Le dernier tableau expose le résultat du test d'égalité des variances.
Les tests réalisés par cette procédure nécessitent l'hypothèse de normalité des distributions. On commencera donc toujours par effectuer une PROC UNIVARIATE option NORMAL avec en instruction VAR la variable numérique à laquelle on s'intéresse et en instruction BY la variable qui définit les sous-groupes. Les deux tests de normalité doivent être positifs.
L'option ALPHA= définit la valeur du seuil pour le calcul des intervalles de confiance.
L'option H0= permet de définir la valeur m telle que l'on teste si l'écart entre les moyennes est égal à m. Par défaut, m=0.
L'option COCHRAN édite l'approximation par la méthode de Cochran en plus de celle par la méthode de Satterthwaite pour le cas où les variances sont significativement différentes.
L'option CI=NONE supprime l'édition de l'intervalle de confiance pour l'écart-type.
Si l'instruction VAR est omise, le test est fait pour toutes les variables numériques de la table, sauf celles éventuellement utilisées dans les instructions BY, FREQ et WEIGHT.
Les instructions FREQ et WEIGHT fonctionnent comme dans les autres procédures qui y font appel.
Voir le descriptif de ces deux instructions.
L'instruction BY sert toujours à distinguer des sous-groupes dans la population. Les tests sont alors réalisés pour chacun des sous-groupes induits séparément.
The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable sexe N Mean Mean Mean Std Dev Std Dev Std Dev Std Err salaire F 16 1208.2 1589 1969.8 527.92 714.66 1106.1 178.66 salaire H 15 1491.7 2264.3 3037 1021.5 1395.3 2200.5 360.26 salaire Diff (1-2) -1482 -675.3 131.21 873.87 1097.3 1475.1 394.35 T-Tests Variable Method Variances DF t Value Pr > |t| salaire Pooled Equal 29 -1.71 0.0975 salaire Satterthwaite Unequal 20.6 -1.68 0.1082 Equality of Variances Variable Method Num DF Den DF F Value Pr > F salaire Folded F 14 15 3.81 0.0146
Il s'agit ici de comparer la rémunération moyenne des hommes à celle des femmes.
On lit que le test d'égalité des variances conclut au rejet de l'hypothèse nulle au seuil de 5%.
Ayant conclu à une différence significative des variances, on s'intéresse au test d'égalité des moyennes
selon la méthode de Satterthwaite. Ici si l'on prend un seuil d'erreur de 5%, on accepte l'hypothèse nulle
d'égalité des moyennes.
Mais on peut toutefois remarquer que la moyenne féminine : 1589, est bien en-dessous de la
moyenne masculine : 2264,3.
En fait le problème ici, c'est qu'on ne peut raisonnablement retenir l'hypothèse de normalité de salaire sur chacun des sous-groupes.