Statistiques univariées et distributions avec la PROC UNIVARIATE

La procédure PROC UNIVARIATE est fort utile pour "déblayer le terrain" avant de se lancer dans des tests statistiques plus élaborés.

Par défaut, la PROC UNIVARIATE comporte cinq blocs :

  1. Calcul des statistiques suivantes : nombre d'observations, moyenne, écart-type, skewness (coefficient d'asymétrie), somme des carrés, coefficient de variation, somme des poids, somme de la variable, variance, kurtosis (coefficient d'aplatissement), somme des carrés des écarts à la moyenne, écart-type de la moyenne.
  2. Statistiques de distribution : moyenne, médiane, mode, écart-type, variance, écart entre maximum et minimum ainsi que distance interquartile.
  3. Tests pour (H0) : la moyenne est nulle.
  4. Quantiles.
  5. Observations extrêmes : les 5 observations les plus basses et les 5 observations les plus élevées.

La PROC UNIVARIATE peut également réaliser un test de normalité ainsi que des graphiques de distribution : box plot (boîte à moustaches), diagramme stem and leaf et graphique d'ajustement à une loi normale.

C'est enfin la reine des quantiles, puisqu'elle peut calculer tous les centiles, il suffit de passer commande !

PROC UNIVARIATE data= <options> ;
  VAR liste_variables ;
  < BY liste_variables ; >
  < FREQ variable ; >
  < WEIGHT variable ; >
  < ID liste_variables ; >
  < OUTPUT <OUT=nom_table>
    <mot_cle_de_la_statistique=nom_stat_dans_la_table_sortie>
    <idem avec autres statistiques>
    <PCTLPTS=liste_centiles PCTLPRE=liste_préfixes_pour_centiles>
    <PCTLNAMES=liste_suffixes_pour_centiles> ; >

Remarques sur les options :

Les deux options les plus fréquemment utilisées sont l'option normal et l'option plots.

L'option freq qui génère l'édition de tableaux recensant les modalités de la (des) variable(s) indiquée(s) dans l'instruction VAR, ainsi que les effectifs, fréquences et fréquences cumulées desdites modalités.

L'option mu0= permet de définir la valeur de référence pour l'hypothèse nulle du test de location (par défaut, cette valeur est égale à 0, ce qui signifie que l'hypothèse nulle du test est : la moyenne est nulle).

L'option nextrobs= définit le nombre d'observations extrêmes que l'on souhaite éditer (par défaut ce paramètre vaut 5, ce qui signifie que les 5 plus basses et les 5 plus élevées des observations sont éditées).


Les instructions :

Les instructions VAR, BY, WEIGHT, FREQ et ID fonctionnent comme pour les autres procédures qui les utilisent. On peut se référer à l'explication donnée dans le cadre de la PROC MEANS.

L'instruction PROBPLOT permet de tracer la courbe de distribution de la variable indiquée, en la superposant à une courbe de distribution choisie parmi les lois classiques.
Ce choix (facultatif) s'effectue grâce à l'option que l'on indique derrière l'instruction PROBPLOT. Par exemple, pour tracer la courbe d'une loi normale, on utilise l'option normal. Cette option comporte comme sous-options (indiquées entre parenthèses) : mu= et sigma= qui précisent les paramètres de la loi ; mu=est (resp. sigma=est) indique que la moyenne (resp. l'écart-type) considérée est celle (celui) de l'échantillon.
On peut également choisir de tracer la courbe d'une loi bêta, gamma, exponentielle, lognormale, ou Weibull. On se réfèrera à l'aide de SAS pour le détail de ces options.
Les autres options ont trait à la présentation des courbes. Là encore, on se réfèrera à l'aide de SAS.

Calcul de centiles dans l'instruction OUTPUT :

L'instruction OUTPUT sert toujours à récupérer certaines des statistiques dans une table dont on spécifie le nom après OUT= . La liste des statistiques que l'on souhaite enregistrer dans cette table est spécifiée ensuite.

C'est aussi dans cette instruction que l'on peut demander des centiles. Il suffit d'en donner la liste après le mot-clé PCTLPTS= . Il est nécessaire de préciser un ou des préfixes pour que SAS sache comment les nommer. On les précise après PCTLPRE= . Si on ne précise qu'un préfixe, il est le même pour tous les centiles demandés. Sinon, on peut en préciser autant qu'il y a de centiles : alors le premier préfixe sert au premier des centiles demandés, et ainsi de suite...

On peut ne pas vouloir récupérer ces quantiles dans une table. Il suffit pour cela de ne pas spécifier la commande OUT= . Notons qu'il est aussi possible de choisir d'autres suffixes que ceux par défaut (qui sont les numéros des centiles) grâce à la commande PCTLNAMES= .


Sortie standard et keywords :

Ci-dessous on figure l'allure d'une sortie standard de PROC UNIVARIATE, dans laquelle on a remplacé les valeurs des statistiques par les mots clés qui servent à désigner chacune de ces statistiques dans la liste de variables de l'instruction OUTPUT.

                                    The UNIVARIATE Procedure
                                       Variable:  ......

                                             Moments

                 N                           N    Sum Weights             SUMWGT    
                 Mean                     MEAN    Sum Observations           SUM
                 Std Deviation             STD    Variance                   VAR
                 Skewness             SKEWNESS    Kurtosis              KURTOSIS
                 Uncorrected SS            USS    Corrected SS               CSS
                 Coeff Variation            CV    Std Error Mean         STDMEAN


                                   Basic Statistical Measures

                         Location                    Variability

                     Mean         MEAN     Std Deviation             STD
                     Median     MEDIAN     Variance                  VAR
                     Mode         MODE     Range                   RANGE
                                           Interquartile Range    QRANGE


                                   Tests for Location: Mu0=0.00

                        Test               -Statistic-    -----p Value------

                        Student's t    T            T    Pr > |t|      PROBT
                        Sign           M        MSIGN    Pr >= |M|     PROBM
                        Signed Rank    S     SIGNRANK    Pr >= |S|     PROBS


                                    Quantiles (Definition 5)

                                     Quantile      Estimate

                                     100% Max           MAX
                                     99%                P99
                                     95%                P95
                                     90%                P90
                                     75% Q3              Q3
                                     50% Median      MEDIAN
                                     25% Q1              Q1
                                     10%                P10
                                     5%                  P5
                                     1%                  P1
                                     0% Min             MIN


                                      Extreme Observations

                              ----Lowest----        ----Highest---

                              Value      Obs        Value      Obs

Outre ces statistiques, il est également possible de demander dans l'instruction OUTPUT :

NMISS : nombre d'observations ayant une valeur manquante
NOBS : nombre total d'observations
NORMAL : statistique du test de normalité (selon la taille de l'échantillon, test de Shapiro-Wilk ou test de Kolmogorov)
PROBN : niveau de significativité du test de normalité


Lecture de sorties :

PROC UNIVARIATE PLOT NORMAL ;
 VAR salaire ;
 BY sexe ;
RUN ;
-------------------------------------------- sexe=F ------------------------------------

                                    The UNIVARIATE Procedure
                             Variable:  salaire  (salaire en euros)

                                             Moments

                 N                          16    Sum Weights                 16
                 Mean                     1589    Sum Observations         25424
                 Std Deviation      714.659546    Variance            510738.267
                 Skewness           2.68443397    Kurtosis            8.59227515
                 Uncorrected SS       48059810    Corrected SS           7661074
                 Coeff Variation    44.9754277    Std Error Mean      178.664886


                                   Basic Statistical Measures

                         Location                    Variability

                     Mean     1589.000     Std Deviation          714.65955
                     Median   1379.000     Variance                  510738
                     Mode     1379.000     Range                       2942
                                           Interquartile Range    694.00000


                                   Tests for Location: Mu0=0

                        Test           -Statistic-    -----p Value------

                        Student's t    t  8.893745    Pr > |t|    <.0001
                        Sign           M         8    Pr >= |M|   <.0001
                        Signed Rank    S        68    Pr >= |S|   <.0001


                                      Tests for Normality

                   Test                  --Statistic---    -----p Value------

                   Shapiro-Wilk          W     0.685914    Pr < W      0.0001
                   Kolmogorov-Smirnov    D     0.282596    Pr > D     <0.0100
                   Cramer-von Mises      W-Sq  0.270147    Pr > W-Sq  <0.0050
                   Anderson-Darling      A-Sq  1.643833    Pr > A-Sq  <0.0050


                                    Quantiles (Definition 5)

                                     Quantile      Estimate

                                     100% Max        3963.0
                                     99%             3963.0
                                     95%             3963.0
                                     90%             2088.0
                                     75% Q3          1859.5
                                     50% Median      1379.0
                                     25% Q1          1165.5
                                     10%             1033.0
                                     5%              1021.0
                                     1%              1021.0
                                     0% Min          1021.0


                                      Extreme Observations

                              ----Lowest----        ----Highest---

                              Value      Obs        Value      Obs

                               1021       15         1844        8
                               1033       13         1875        4
                               1067       16         1905        3
                               1097        9         2088        2
                               1234       14         3963        1


                        Stem Leaf                     #             Boxplot
                           4 0                        1                *
                           3
                           3
                           2
                           2 1                        1                |
                           1 899                      3             +--+--+
                           1 00112444444             11             *-----*
                             ----+----+----+----+
                         Multiply Stem.Leaf by 10**+3


                                         Normal Probability Plot
                      4250+
                          |                                           *
                          |                                             ++++++
                      2750+                                      +++++++
                          |                               +++++++*
                          |                        +++++++* * *
                      1250+       *    *  * *+*+*+**  * *
                           +----+----+----+----+----+----+----+----+----+----+
                               -2        -1         0        +1        +2


-------------------------------------------- sexe=H ------------------------------------

                                    The UNIVARIATE Procedure
                             Variable:  salaire  (salaire en euros)

                                             Moments

                 N                          15    Sum Weights                 15
                 Mean               2264.33333    Sum Observations         33965
                 Std Deviation      1395.26227    Variance            1946756.81
                 Skewness           1.74834242    Kurtosis            3.26071832
                 Uncorrected SS      104162677    Corrected SS        27254595.3
                 Coeff Variation    61.6191199    Std Error Mean       360.25517


                                   Basic Statistical Measures

                         Location                    Variability

                     Mean     2264.333     Std Deviation               1395
                     Median   1951.000     Variance                 1946757
                     Mode         .        Range                       5129
                                           Interquartile Range         1160


                                   Tests for Location: Mu0=0

                        Test           -Statistic-    -----p Value------

                        Student's t    t   6.28536    Pr > |t|    <.0001
                        Sign           M       7.5    Pr >= |M|   <.0001
                        Signed Rank    S        60    Pr >= |S|   <.0001


                                      Tests for Normality

                   Test                  --Statistic---    -----p Value------

                   Shapiro-Wilk          W     0.814436    Pr < W      0.0057
                   Kolmogorov-Smirnov    D     0.230963    Pr > D      0.0300
                   Cramer-von Mises      W-Sq  0.165237    Pr > W-Sq   0.0136
                   Anderson-Darling      A-Sq  0.983563    Pr > A-Sq   0.0097


                                    Quantiles (Definition 5)

                                     Quantile      Estimate

                                     100% Max          6097
                                     99%               6097
                                     95%               6097
                                     90%               4268
                                     75% Q3            2507
                                     50% Median        1951
                                     25% Q1            1347
                                     10%               1036
                                     5%                 968
                                     1%                 968
                                     0% Min             968


                                     Extreme Observations

                              ----Lowest----        ----Highest---

                              Value      Obs        Value      Obs

                                968       15         2286        4
                               1036       13         2507        6
                               1082       14         3353        3
                               1347       10         4268        2
                               1353       11         6097        1


                        Stem Leaf                     #             Boxplot
                           6 1                        1                *
                           5
                           4 3                        1                0
                           3 4                        1                |
                           2 02235                    5             +--+--+
                           1 0013449                  7             +-----+
                           0
                             ----+----+----+----+
                         Multiply Stem.Leaf by 10**+3


                                         Normal Probability Plot
                      6500+                                          *
                          |                                             ++++++
                          |                                     *+++++++
                      3500+                               +++*+++
                          |                        +++**+* *
                          |             *  *+*+*+** *
                       500+        *+++++++
                           +----+----+----+----+----+----+----+----+----+----+
                               -2        -1         0        +1        +2
						 

Les deux analyses ci-dessus correspondent au calcul de statistiques univariées sur les deux sous-populations définies par les modalités de la variable sexe (instruction BY) : sous-population masculine et sous-population féminine. Outre la sortie standard, un test de normalité a été édité : vu que la taille de notre échantillon est inférieure à 2000 individus, on se réfère au test de Shapiro-Wilk. La p-value étant très inférieure à 0,05 dans les deux cas, on rejette à 5% l'hypothèse d'adéquation à une loi normale des deux distributions de salaire considérées.

Ci-après l'édition des boîtes à moustaches générées par l'option PLOT.

                                    The UNIVARIATE Procedure
                             Variable:  salaire  (salaire en euros)

                                         Schematic Plots

                                  |
                             6500 +
                                  |
                                  |
                                  |                        *
                             6000 +
                                  |
                                  |
                                  |
                             5500 +
                                  |
                                  |
                                  |
                             5000 +
                                  |
                                  |
                                  |
                             4500 +
                                  |
                                  |                        0
                                  |
                             4000 +            *
                                  |
                                  |
                                  |
                             3500 +
                                  |                        |
                                  |                        |
                                  |                        |
                             3000 +                        |
                                  |                        |
                                  |                        |
                                  |                        |
                             2500 +                     +-----+
                                  |                     |     |
                                  |                     |  +  |
                                  |            |        |     |
                             2000 +            |        *-----*
                                  |         +-----+     |     |
                                  |         |     |     |     |
                                  |         |  +  |     |     |
                             1500 +         |     |     |     |
                                  |         *-----*     +-----+
                                  |         |     |        |
                                  |         +-----+        |
                             1000 +            |           |
                                   ------------+-----------+-----------
                             sexe  	           F           H
 

On préfèrera éditer les boxplots avec une procédure adaptée, soit la PROC BOXPLOT.