Des tableaux de statistiques descriptives avec la PROC TABULATE
La PROC TABULATE est utile pour dresser des
tableaux de statistiques
descriptives. Les statistiques qu'elle peut éditer sont sensiblement les mêmes que dans la
PROC MEANS. La force de cette procédure résidant dans la présentation
des résultats.
PROC TABULATE <data= > <options> ;
CLASS variables ;
< CLASSLEV variables / style= ; >
< KEYLABEL keyword="description" ; >
< KEYWORD keywords / style= ; >
TABLE <<page_expression>, row expression>, column expression ;
VAR variables ;
Les instructions :
- Pour le calcul des statistiques descriptives :
L'instruction CLASS permet de définir les variables
catégorielles qui seront utilisées dans la proc, soit pour être étudiées (tableaux de fréquence
et de contingence) soit pour constituer des sous-groupes.
L'instruction VAR permet, comme d'habitude, de préciser les
variables (numériques) sur lesquelles on souhaite travailler.
L'instruction TABLE définit à la fois ce qui est calculé et
la manière dont les résultats sont présentés dans le tableau. On doit au moins définir les éléments
qui constituent les colonnes du tableau. Il s'agira d'une combinaison de noms de variables et de
mots-clés de statistiques, reliés par des opérateurs :
- L'opérateur "espace" est la concaténation des éléments
- L'opérateur "*" réalise le croisement des éléments
- L'opérateur "," sépare ce qui sera en ligne de ce qui sera en colonne.
Voir la liste des mots-clés.
Toutes les variables qualitatives invoquées doivent être définies au préalable dans l'instruction
CLASS.
Toutes les variables quantitatives invoquées doivent être répertoriées dans l'instruction VAR.
Exemples
CLASS sexe ; TABLE sexe ; |
Edite un tableau contenant les effectifs des modalités de sexe où les modalités sont les colonnes du tableau. |
CLASS sexe ; TABLE (n pctn),sexe ; |
Edite un tableau à deux lignes contenant les effectifs et pourcentages des modalités de sexe (les colonnes correspondent aux modalités de sexe). |
CLASS sexe diplome ; TABLE sexe*diplome ; |
Edite un tableau à une ligne (l'effectif) dont chaque colonne (modalités de sexe) sont subdivisées selon les modalités de diplome. |
TABLE salaire ; VAR salaire ; |
Edite un tableau à une colonne (le salaire) et une ligne (somme de la variable salaire). |
TABLE (sum mean std),salaire ; VAR salaire ; |
Édite un tableau à 3 lignes (la somme, la moyenne et l'écart-type) et 1 colonne (la variable salaire). |
CLASS sexe ; TABLE (sum mean),salaire*sexe ; VAR salaire ; |
Edite un tableau à 2 lignes (la somme et la moyenne) et 1 colonne pour salaire, laquelle est subdivisée selon les modalités de sexe. Sont donc calculées la somme et la moyenne des salaires sur les sous-populations des hommes et des femmes. |
- Pour la présentation des résultats :
L'instruction CLASSLEV permet d'affecter un style aux
variables de groupe.
L'instruction KEYWORD permet d'affecter un style aux titres
des statistiques éditées.
Note : Ces deux instructions utilisent l'option style= .
L'instruction KEYLABEL affecte un libellé à une statistique.
- Autres instructions :
Les instructions BY, FREQ et
WEIGHT sont également utilisables dans cette procédure.
Les options :
L'option classdata= permet de préciser le nom d'une
table contenant les variables qui serviront à constituer les sous-groupes.
L'option exclusive élimine de l'analyse les profils qui ne
figurent pas dans la table déclarée après classdata= .
L'option order= ordonne les profils selon la méthode
spécifiée : data (ordre d'apparition dans la table) et freq (ordre décroissant de l'effectif des
profils) sont les plus utiles.
L'option style= définit la mise en forme des cellules du
tableau. L'option style=parent indique que les cellules héritent de la mise en forme du titre de
la colonne. Sinon on définit les paramètres entre [...]. On se réfèrera à l'aide en ligne de SAS pour
une liste exhaustive des paramètres. Citons-en quelques uns :
- Background
- couleur de fond des cellules
- Foreground
- couleur du texte
- Bordercolor
- couleur de la bordure du tableau
- Cell_height
- hauteur des cellules
- Cell_width
- largeur des cellules
- Font_face
- police
- Font_size
- taille de la police
Exemple d'utilisation : style=[background=red]
Note : la mise en forme n'est visible que dans le fichier exporté par ODS.
Liste des mots-clés statistiques :
N | Effectif |
NMISS | Nombre de valeurs manquantes |
PCTN | Pourcentage de l'effectif total |
MIN | Minimum |
MAX | Maximum |
RANGE | Plage des valeurs = MAX - MIN |
SUMWGT | Somme des poids |
SUM | Somme |
PCTSUM | Pourcentage de la somme |
MEAN | Moyenne |
STD | Ecart-type |
STDERR | Standard Error of Mean |
USS | Somme des carrés |
CSS | Somme des carrés des écarts à la moyenne |
VAR | Variance |
CV | Coefficient de variation |
T | Valeur de la statistique de Student pour le test (H0) : la moyenne est nulle |
PROBT | P-value associée au test précédent |
MEDIAN | Médiane |
QRANGE | Distance interquartile |
Q1 et Q3 | Premier et troisième quartiles |
P1 P5 P10 P90
P95 P99 | Centiles |
Lecture de sorties :
On effectue ci-dessous une PROC TABULATE pour éditer deux tableaux de statistiques.
La sortie mise en forme est récupérée dans un fichier externe grâce à l'ODS (Output Delivery
System).
Voir la page sur l'ODS
ods rtf file="w:/sas/cours/tabulate.rtf";
PROC TABULATE data=malib.bidon style=[font_size=2 font_face=verdana foreground=blue];
CLASS zone distribution;
CLASSLEV zone distribution / style=[background=white font_size=2 font_face=verdana];
KEYLABEL pctn='percent' n='effectif' mean='moyenne' std='écart-type';
TABLE (mean std),va*zone;
TABLE zone,distribution*(n pctn);
VAR va;
RUN;
ods rtf close;
On obtient la sortie .rtf suivante :
L'instruction
TABLE (mean std),va*zone;
calcule la moyenne et l'écart-type (deux lignes dans le tableau) de la valeur ajoutée sur chacune
des sous-populations zone=IF, zone=NE, zone=NW, zone=SE et zone=SW (modalités en colonnes).
L'instruction
TABLE zone,distribution*(n pctn);
calcule l'effectif et le pourcentage de l'effectif total de chacun des profils de (zone, distribution)
recensés dans la table. Les modalités de zone sont en ligne. Les modalités de distribution et les
statistiques sont en colonne.
L'instruction
KEYLABEL pctn="percent" n="effectif" mean="moyenne" std="écart-type";
permet aux noms des statistiques d'être clairs.
Les résultats apparaissent en Verdana bleu de taille 2 (9 pt) grâce à l'option
style=[font_size=2 font_face=verdana foreground=blue]
de la PROC.
Les cases portant le titre des modalités ont un fond blanc grâce à l'instruction
CLASSLEV zone distribution / style=[background=white font_size=2 font_face=verdana];
Les tableaux édités dans la fenêtre Output sont les mêmes, la mise en forme (couleur,
police...) en moins.