La procédure PROC UNIVARIATE est fort utile pour "déblayer le terrain" avant de se lancer dans des tests statistiques plus élaborés.
Par défaut, la PROC UNIVARIATE comporte cinq blocs :
La PROC UNIVARIATE peut également réaliser un test de normalité ainsi que des graphiques de distribution : box plot (boîte à moustaches), diagramme stem and leaf et graphique d'ajustement à une loi normale.
C'est enfin la reine des quantiles, puisqu'elle peut calculer tous les centiles, il suffit de passer commande !
Les deux options les plus fréquemment utilisées sont l'option normal et l'option plots.
L'option freq qui génère l'édition de tableaux recensant les modalités de la (des) variable(s) indiquée(s) dans l'instruction VAR, ainsi que les effectifs, fréquences et fréquences cumulées desdites modalités.
L'option mu0= permet de définir la valeur de référence pour l'hypothèse nulle du test de location (par défaut, cette valeur est égale à 0, ce qui signifie que l'hypothèse nulle du test est : la moyenne est nulle).
L'option nextrobs= définit le nombre d'observations extrêmes que l'on souhaite éditer (par défaut ce paramètre vaut 5, ce qui signifie que les 5 plus basses et les 5 plus élevées des observations sont éditées).
Les instructions VAR, BY, WEIGHT, FREQ et ID fonctionnent comme pour les autres procédures qui les utilisent. On peut se référer à l'explication donnée dans le cadre de la PROC MEANS.
L'instruction PROBPLOT permet de tracer la
courbe de distribution de la variable indiquée, en la superposant à une courbe de
distribution choisie parmi les lois classiques.
Ce choix (facultatif) s'effectue grâce à l'option que l'on indique derrière
l'instruction PROBPLOT. Par exemple, pour tracer la courbe d'une loi normale,
on utilise l'option normal. Cette option comporte
comme sous-options (indiquées entre parenthèses) :
mu= et sigma=
qui précisent les paramètres de la loi ; mu=est (resp. sigma=est) indique que la
moyenne (resp. l'écart-type) considérée est celle (celui) de l'échantillon.
On peut également choisir de tracer la courbe d'une loi bêta, gamma, exponentielle,
lognormale, ou Weibull. On se réfèrera à l'aide de SAS pour le détail de ces options.
Les autres options ont trait à la présentation des courbes. Là encore, on se réfèrera
à l'aide de SAS.
L'instruction OUTPUT sert toujours à récupérer certaines des statistiques dans une table dont on spécifie le nom après OUT= . La liste des statistiques que l'on souhaite enregistrer dans cette table est spécifiée ensuite.
C'est aussi dans cette instruction que l'on peut demander des centiles. Il suffit d'en donner la liste après le mot-clé PCTLPTS= . Il est nécessaire de préciser un ou des préfixes pour que SAS sache comment les nommer. On les précise après PCTLPRE= . Si on ne précise qu'un préfixe, il est le même pour tous les centiles demandés. Sinon, on peut en préciser autant qu'il y a de centiles : alors le premier préfixe sert au premier des centiles demandés, et ainsi de suite...
On peut ne pas vouloir récupérer ces quantiles dans une table. Il suffit pour cela de ne pas spécifier la commande OUT= . Notons qu'il est aussi possible de choisir d'autres suffixes que ceux par défaut (qui sont les numéros des centiles) grâce à la commande PCTLNAMES= .
Ci-dessous on figure l'allure d'une sortie standard de PROC UNIVARIATE, dans laquelle on a remplacé les valeurs des statistiques par les mots clés qui servent à désigner chacune de ces statistiques dans la liste de variables de l'instruction OUTPUT.
The UNIVARIATE Procedure
Variable: ......
Moments
N N Sum Weights SUMWGT
Mean MEAN Sum Observations SUM
Std Deviation STD Variance VAR
Skewness SKEWNESS Kurtosis KURTOSIS
Uncorrected SS USS Corrected SS CSS
Coeff Variation CV Std Error Mean STDMEAN
Basic Statistical Measures
Location Variability
Mean MEAN Std Deviation STD
Median MEDIAN Variance VAR
Mode MODE Range RANGE
Interquartile Range QRANGE
Tests for Location: Mu0=0.00
Test -Statistic- -----p Value------
Student's t T T Pr > |t| PROBT
Sign M MSIGN Pr >= |M| PROBM
Signed Rank S SIGNRANK Pr >= |S| PROBS
Quantiles (Definition 5)
Quantile Estimate
100% Max MAX
99% P99
95% P95
90% P90
75% Q3 Q3
50% Median MEDIAN
25% Q1 Q1
10% P10
5% P5
1% P1
0% Min MIN
Extreme Observations
----Lowest---- ----Highest---
Value Obs Value Obs
Outre ces statistiques, il est également possible de demander dans l'instruction OUTPUT :
NMISS : nombre d'observations ayant une valeur manquante
NOBS : nombre total d'observations
NORMAL : statistique du test de normalité (selon la taille de l'échantillon,
test de Shapiro-Wilk ou test de Kolmogorov)
PROBN : niveau de significativité du test de normalité
-------------------------------------------- sexe=F ------------------------------------
The UNIVARIATE Procedure
Variable: salaire (salaire en euros)
Moments
N 16 Sum Weights 16
Mean 1589 Sum Observations 25424
Std Deviation 714.659546 Variance 510738.267
Skewness 2.68443397 Kurtosis 8.59227515
Uncorrected SS 48059810 Corrected SS 7661074
Coeff Variation 44.9754277 Std Error Mean 178.664886
Basic Statistical Measures
Location Variability
Mean 1589.000 Std Deviation 714.65955
Median 1379.000 Variance 510738
Mode 1379.000 Range 2942
Interquartile Range 694.00000
Tests for Location: Mu0=0
Test -Statistic- -----p Value------
Student's t t 8.893745 Pr > |t| <.0001
Sign M 8 Pr >= |M| <.0001
Signed Rank S 68 Pr >= |S| <.0001
Tests for Normality
Test --Statistic--- -----p Value------
Shapiro-Wilk W 0.685914 Pr < W 0.0001
Kolmogorov-Smirnov D 0.282596 Pr > D <0.0100
Cramer-von Mises W-Sq 0.270147 Pr > W-Sq <0.0050
Anderson-Darling A-Sq 1.643833 Pr > A-Sq <0.0050
Quantiles (Definition 5)
Quantile Estimate
100% Max 3963.0
99% 3963.0
95% 3963.0
90% 2088.0
75% Q3 1859.5
50% Median 1379.0
25% Q1 1165.5
10% 1033.0
5% 1021.0
1% 1021.0
0% Min 1021.0
Extreme Observations
----Lowest---- ----Highest---
Value Obs Value Obs
1021 15 1844 8
1033 13 1875 4
1067 16 1905 3
1097 9 2088 2
1234 14 3963 1
Stem Leaf # Boxplot
4 0 1 *
3
3
2
2 1 1 |
1 899 3 +--+--+
1 00112444444 11 *-----*
----+----+----+----+
Multiply Stem.Leaf by 10**+3
Normal Probability Plot
4250+
| *
| ++++++
2750+ +++++++
| +++++++*
| +++++++* * *
1250+ * * * *+*+*+** * *
+----+----+----+----+----+----+----+----+----+----+
-2 -1 0 +1 +2
-------------------------------------------- sexe=H ------------------------------------
The UNIVARIATE Procedure
Variable: salaire (salaire en euros)
Moments
N 15 Sum Weights 15
Mean 2264.33333 Sum Observations 33965
Std Deviation 1395.26227 Variance 1946756.81
Skewness 1.74834242 Kurtosis 3.26071832
Uncorrected SS 104162677 Corrected SS 27254595.3
Coeff Variation 61.6191199 Std Error Mean 360.25517
Basic Statistical Measures
Location Variability
Mean 2264.333 Std Deviation 1395
Median 1951.000 Variance 1946757
Mode . Range 5129
Interquartile Range 1160
Tests for Location: Mu0=0
Test -Statistic- -----p Value------
Student's t t 6.28536 Pr > |t| <.0001
Sign M 7.5 Pr >= |M| <.0001
Signed Rank S 60 Pr >= |S| <.0001
Tests for Normality
Test --Statistic--- -----p Value------
Shapiro-Wilk W 0.814436 Pr < W 0.0057
Kolmogorov-Smirnov D 0.230963 Pr > D 0.0300
Cramer-von Mises W-Sq 0.165237 Pr > W-Sq 0.0136
Anderson-Darling A-Sq 0.983563 Pr > A-Sq 0.0097
Quantiles (Definition 5)
Quantile Estimate
100% Max 6097
99% 6097
95% 6097
90% 4268
75% Q3 2507
50% Median 1951
25% Q1 1347
10% 1036
5% 968
1% 968
0% Min 968
Extreme Observations
----Lowest---- ----Highest---
Value Obs Value Obs
968 15 2286 4
1036 13 2507 6
1082 14 3353 3
1347 10 4268 2
1353 11 6097 1
Stem Leaf # Boxplot
6 1 1 *
5
4 3 1 0
3 4 1 |
2 02235 5 +--+--+
1 0013449 7 +-----+
0
----+----+----+----+
Multiply Stem.Leaf by 10**+3
Normal Probability Plot
6500+ *
| ++++++
| *+++++++
3500+ +++*+++
| +++**+* *
| * *+*+*+** *
500+ *+++++++
+----+----+----+----+----+----+----+----+----+----+
-2 -1 0 +1 +2
Les deux analyses ci-dessus correspondent au calcul de statistiques univariées sur les deux sous-populations définies par les modalités de la variable sexe (instruction BY) : sous-population masculine et sous-population féminine. Outre la sortie standard, un test de normalité a été édité : vu que la taille de notre échantillon est inférieure à 2000 individus, on se réfère au test de Shapiro-Wilk. La p-value étant très inférieure à 0,05 dans les deux cas, on rejette à 5% l'hypothèse d'adéquation à une loi normale des deux distributions de salaire considérées.
Ci-après l'édition des boîtes à moustaches générées par l'option PLOT.
The UNIVARIATE Procedure
Variable: salaire (salaire en euros)
Schematic Plots
|
6500 +
|
|
| *
6000 +
|
|
|
5500 +
|
|
|
5000 +
|
|
|
4500 +
|
| 0
|
4000 + *
|
|
|
3500 +
| |
| |
| |
3000 + |
| |
| |
| |
2500 + +-----+
| | |
| | + |
| | | |
2000 + | *-----*
| +-----+ | |
| | | | |
| | + | | |
1500 + | | | |
| *-----* +-----+
| | | |
| +-----+ |
1000 + | |
------------+-----------+-----------
sexe F H
On préfèrera éditer les boxplots avec une procédure adaptée, soit la PROC BOXPLOT.