La PROC MEANS est la première procédure qu'il faut connaître lorsqu'on souhaite effectuer des statistiques descriptives élémentaires sur des variables quantitatives. Par défaut, elle calcule le nombre d'observations non manquantes, la moyenne, l'écart-type, la valeur minimum et la valeur maximum de toutes les variables numérique de la table (ou des variables indiquées par l'instruction VAR).
Avec les options appropriées, on peut demander un grand nombre de statistiques : somme, médiane, variance, skewness, kurtosis, quartiles, premier et dernier centile, premier et dernier décile,... Lorsqu'une (ou plusieurs) de ces options est spécifiée, cela annule l'édition par défaut. Il faudra donc, si par exemple on souhaite avoir encore la moyenne, l'expliciter.
Les options les plus intéressantes sont celles qui permettent de choisir les statistiques à éditer :
N | Effectif |
NMISS | Nombre de valeurs manquantes |
MIN | Minimum |
MAX | Maximum |
RANGE | Plage des valeurs = MAX - MIN |
SUMWGT | Somme des poids |
SUM | Somme |
MEAN | Moyenne |
STD | Ecart-type |
STDERR | Standard Error of Mean |
KURTOSIS | Coefficient d'aplatissement |
SKEWNESS | Coefficient d'asymétrie |
USS | Somme des carrés |
CSS | Somme des carrés des écarts à la moyenne |
VAR | Variance |
CV | Coefficient de variation |
T | Valeur de la statistique de Student pour le test (H0) : la moyenne est nulle |
PROBT | P-value associée au test précédent |
MEDIAN | Médiane |
QRANGE | Distance interquartile = Q3 - Q1 |
Q1 et Q3 | Premier et troisième quartiles |
P1 P5 P10 P90 P95 P99 | Centiles |
Remarque : Ces statistiques sont éditées par défaut par la PROC UNIVARIATE.
L'instruction VAR permet de préciser sur quelle(s) variable(s) on travaille. Si on omet l'instruction, la PROC MEANS prend en compte toutes les variables numériques de la table spécifiée.
Les instructions BY et CLASS permettent de faire des sous-groupes (voir l'explication de la différence entre ces instructions).
Lorsqu'une variable apparaît dans l'instruction FREQ, tout se passe comme si chaque observation i apparaissait v(i) fois dans la table, où v(i) est la valeur en i de la variable désignée par l'instruction FREQ.
L'instruction WEIGHT permet de définir une variable qui servira à pondérer les observations avant le calcul des corrélations.
L'instruction ID spécifie une variable qui sert d'identifiant pour les observations.
L'instruction OUTPUT sert à récupérer certaines des
statistiques dans une table dont on spécifie le nom après
OUT= . La liste des statistiques que l'on souhaite enregistrer
dans cette table est spécifiée ensuite.
On peut éventuellement décider de renommer ces variables, car le nom généré automatiquement par
SAS n'est pas très clair.
Admettons que l'on veuille récupérer la moyenne et l'écart-type des trois variables qui ont été
désignées dans l'instruction VAR par VAR v1 v2 v3 ; dans une table nommée resultat.
Alors on écrit :
Et si on veut renommer les variables :
Alors moy1 contient la moyenne de v1, moy2 la moyenne de v2,...
The MEANS Procedure Variable Label N Mean Std Dev Minimum Maximum ______________________________________________________________________________________ va va (en MF) 50 1562.42 3154.38 139.0000000 17842.00 ventes 50 0.0200000 0.0433028 0.0020000 0.2630000 ______________________________________________________________________________________
The MEANS Procedure Analysis Variable : ventes N zone distribution Obs Sum ___________________________________________ IF nationale 1 0.2630000 régionale 3 0.1960000 NE locale 8 0.0190000 régionale 1 0.0740000 NW régionale 2 0.1890000 SE locale 14 0.1740000 régionale 1 0.0100000 SW locale 20 0.0750000 ___________________________________________
La procédure calcule la somme des parts de marché détenues par les entreprises correspondant à un certain profil (zone ; distribution). Par exemple, les entreprises locales implantées dans le sud-est représentent 17% du marché.