Statistiques descriptives quantitatives avec la PROC MEANS

La PROC MEANS est la première procédure qu'il faut connaître lorsqu'on souhaite effectuer des statistiques descriptives élémentaires sur des variables quantitatives. Par défaut, elle calcule le nombre d'observations non manquantes, la moyenne, l'écart-type, la valeur minimum et la valeur maximum de toutes les variables numérique de la table (ou des variables indiquées par l'instruction VAR).

Avec les options appropriées, on peut demander un grand nombre de statistiques : somme, médiane, variance, skewness, kurtosis, quartiles, premier et dernier centile, premier et dernier décile,... Lorsqu'une (ou plusieurs) de ces options est spécifiée, cela annule l'édition par défaut. Il faudra donc, si par exemple on souhaite avoir encore la moyenne, l'expliciter.

PROC MEANS data= <options> ;
  VAR liste_variables_quantitatives ;
  < BY variable ; >
  < CLASS variable ; >
  < FREQ variable ; >
  < WEIGHT variable ; >
  < ID variable ; >
  < OUTPUT <OUT=nom_table>
    <mot_cle_de_la_statistique=nom_stat_dans_la_table_sortie>
    <idem avec autres statistiques> ; >

Les options :

Les options les plus intéressantes sont celles qui permettent de choisir les statistiques à éditer :

Liste des mots-clés statistiques
NEffectif
NMISSNombre de valeurs manquantes
MINMinimum
MAXMaximum
RANGEPlage des valeurs = MAX - MIN
SUMWGTSomme des poids
SUMSomme
MEANMoyenne
STDEcart-type
STDERRStandard Error of Mean
KURTOSISCoefficient d'aplatissement
SKEWNESSCoefficient d'asymétrie
USSSomme des carrés
CSSSomme des carrés des écarts à la moyenne
VARVariance
CVCoefficient de variation
TValeur de la statistique de Student pour le test (H0) : la moyenne est nulle
PROBTP-value associée au test précédent
MEDIANMédiane
QRANGEDistance interquartile = Q3 - Q1
Q1 et Q3Premier et troisième quartiles
P1 P5 P10 P90 P95 P99Centiles

Remarque : Ces statistiques sont éditées par défaut par la PROC UNIVARIATE.


Les instructions :

L'instruction VAR permet de préciser sur quelle(s) variable(s) on travaille. Si on omet l'instruction, la PROC MEANS prend en compte toutes les variables numériques de la table spécifiée.

Les instructions BY et CLASS permettent de faire des sous-groupes (voir l'explication de la différence entre ces instructions).

Lorsqu'une variable apparaît dans l'instruction FREQ, tout se passe comme si chaque observation i apparaissait v(i) fois dans la table, où v(i) est la valeur en i de la variable désignée par l'instruction FREQ.

L'instruction WEIGHT permet de définir une variable qui servira à pondérer les observations avant le calcul des corrélations.

L'instruction ID spécifie une variable qui sert d'identifiant pour les observations.

L'instruction OUTPUT sert à récupérer certaines des statistiques dans une table dont on spécifie le nom après OUT= . La liste des statistiques que l'on souhaite enregistrer dans cette table est spécifiée ensuite. On peut éventuellement décider de renommer ces variables, car le nom généré automatiquement par SAS n'est pas très clair.
Admettons que l'on veuille récupérer la moyenne et l'écart-type des trois variables qui ont été désignées dans l'instruction VAR par VAR v1 v2 v3 ; dans une table nommée resultat.

Alors on écrit :

OUTPUT OUT=resultat MEAN STD ;

Et si on veut renommer les variables :

OUTPUT OUT=resultat MEAN=moy1 moy2 moy3 STD=et1 et2 et3 ;

Alors moy1 contient la moyenne de v1, moy2 la moyenne de v2,...


Lecture de sorties :

proc means data=malib.bidon ;
run ;
                                       The MEANS Procedure

  Variable    Label      N      Mean         Std Dev         Minimum         Maximum
  ______________________________________________________________________________________
	
  va        va (en MF)   50    1562.42       3154.38       139.0000000       17842.00
  ventes                 50    0.0200000     0.0433028       0.0020000       0.2630000
  ______________________________________________________________________________________

proc means data=malib.bidon sum ;
 var ventes ;
 class zone distribution ;
run ;
                                       The MEANS Procedure

                                   Analysis Variable : ventes

                                                     N
                           zone    distribution    Obs             Sum
                           ___________________________________________
													 
                           IF      nationale         1       0.2630000
                                   régionale         3       0.1960000

                           NE      locale            8       0.0190000
                                   régionale         1       0.0740000

                           NW      régionale         2       0.1890000

                           SE      locale           14       0.1740000
                                   régionale         1       0.0100000

                           SW      locale           20       0.0750000
                           ___________________________________________

La procédure calcule la somme des parts de marché détenues par les entreprises correspondant à un certain profil (zone ; distribution). Par exemple, les entreprises locales implantées dans le sud-est représentent 17% du marché.