La procédure PROC UNIVARIATE est fort utile pour "déblayer le terrain" avant de se lancer dans des tests statistiques plus élaborés.
Par défaut, la PROC UNIVARIATE comporte cinq blocs :
La PROC UNIVARIATE peut également réaliser un test de normalité ainsi que des graphiques de distribution : box plot (boîte à moustaches), diagramme stem and leaf et graphique d'ajustement à une loi normale.
C'est enfin la reine des quantiles, puisqu'elle peut calculer tous les centiles, il suffit de passer commande !
Les deux options les plus fréquemment utilisées sont l'option normal et l'option plots.
L'option freq qui génère l'édition de tableaux recensant les modalités de la (des) variable(s) indiquée(s) dans l'instruction VAR, ainsi que les effectifs, fréquences et fréquences cumulées desdites modalités.
L'option mu0= permet de définir la valeur de référence pour l'hypothèse nulle du test de location (par défaut, cette valeur est égale à 0, ce qui signifie que l'hypothèse nulle du test est : la moyenne est nulle).
L'option nextrobs= définit le nombre d'observations extrêmes que l'on souhaite éditer (par défaut ce paramètre vaut 5, ce qui signifie que les 5 plus basses et les 5 plus élevées des observations sont éditées).
Les instructions VAR, BY, WEIGHT, FREQ et ID fonctionnent comme pour les autres procédures qui les utilisent. On peut se référer à l'explication donnée dans le cadre de la PROC MEANS.
L'instruction PROBPLOT permet de tracer la
courbe de distribution de la variable indiquée, en la superposant à une courbe de
distribution choisie parmi les lois classiques.
Ce choix (facultatif) s'effectue grâce à l'option que l'on indique derrière
l'instruction PROBPLOT. Par exemple, pour tracer la courbe d'une loi normale,
on utilise l'option normal. Cette option comporte
comme sous-options (indiquées entre parenthèses) :
mu= et sigma=
qui précisent les paramètres de la loi ; mu=est (resp. sigma=est) indique que la
moyenne (resp. l'écart-type) considérée est celle (celui) de l'échantillon.
On peut également choisir de tracer la courbe d'une loi bêta, gamma, exponentielle,
lognormale, ou Weibull. On se réfèrera à l'aide de SAS pour le détail de ces options.
Les autres options ont trait à la présentation des courbes. Là encore, on se réfèrera
à l'aide de SAS.
L'instruction OUTPUT sert toujours à récupérer certaines des statistiques dans une table dont on spécifie le nom après OUT= . La liste des statistiques que l'on souhaite enregistrer dans cette table est spécifiée ensuite.
C'est aussi dans cette instruction que l'on peut demander des centiles. Il suffit d'en donner la liste après le mot-clé PCTLPTS= . Il est nécessaire de préciser un ou des préfixes pour que SAS sache comment les nommer. On les précise après PCTLPRE= . Si on ne précise qu'un préfixe, il est le même pour tous les centiles demandés. Sinon, on peut en préciser autant qu'il y a de centiles : alors le premier préfixe sert au premier des centiles demandés, et ainsi de suite...
On peut ne pas vouloir récupérer ces quantiles dans une table. Il suffit pour cela de ne pas spécifier la commande OUT= . Notons qu'il est aussi possible de choisir d'autres suffixes que ceux par défaut (qui sont les numéros des centiles) grâce à la commande PCTLNAMES= .
Ci-dessous on figure l'allure d'une sortie standard de PROC UNIVARIATE, dans laquelle on a remplacé les valeurs des statistiques par les mots clés qui servent à désigner chacune de ces statistiques dans la liste de variables de l'instruction OUTPUT.
The UNIVARIATE Procedure Variable: ...... Moments N N Sum Weights SUMWGT Mean MEAN Sum Observations SUM Std Deviation STD Variance VAR Skewness SKEWNESS Kurtosis KURTOSIS Uncorrected SS USS Corrected SS CSS Coeff Variation CV Std Error Mean STDMEAN Basic Statistical Measures Location Variability Mean MEAN Std Deviation STD Median MEDIAN Variance VAR Mode MODE Range RANGE Interquartile Range QRANGE Tests for Location: Mu0=0.00 Test -Statistic- -----p Value------ Student's t T T Pr > |t| PROBT Sign M MSIGN Pr >= |M| PROBM Signed Rank S SIGNRANK Pr >= |S| PROBS Quantiles (Definition 5) Quantile Estimate 100% Max MAX 99% P99 95% P95 90% P90 75% Q3 Q3 50% Median MEDIAN 25% Q1 Q1 10% P10 5% P5 1% P1 0% Min MIN Extreme Observations ----Lowest---- ----Highest--- Value Obs Value Obs
Outre ces statistiques, il est également possible de demander dans l'instruction OUTPUT :
NMISS : nombre d'observations ayant une valeur manquante
NOBS : nombre total d'observations
NORMAL : statistique du test de normalité (selon la taille de l'échantillon,
test de Shapiro-Wilk ou test de Kolmogorov)
PROBN : niveau de significativité du test de normalité
-------------------------------------------- sexe=F ------------------------------------ The UNIVARIATE Procedure Variable: salaire (salaire en euros) Moments N 16 Sum Weights 16 Mean 1589 Sum Observations 25424 Std Deviation 714.659546 Variance 510738.267 Skewness 2.68443397 Kurtosis 8.59227515 Uncorrected SS 48059810 Corrected SS 7661074 Coeff Variation 44.9754277 Std Error Mean 178.664886 Basic Statistical Measures Location Variability Mean 1589.000 Std Deviation 714.65955 Median 1379.000 Variance 510738 Mode 1379.000 Range 2942 Interquartile Range 694.00000 Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student's t t 8.893745 Pr > |t| <.0001 Sign M 8 Pr >= |M| <.0001 Signed Rank S 68 Pr >= |S| <.0001 Tests for Normality Test --Statistic--- -----p Value------ Shapiro-Wilk W 0.685914 Pr < W 0.0001 Kolmogorov-Smirnov D 0.282596 Pr > D <0.0100 Cramer-von Mises W-Sq 0.270147 Pr > W-Sq <0.0050 Anderson-Darling A-Sq 1.643833 Pr > A-Sq <0.0050 Quantiles (Definition 5) Quantile Estimate 100% Max 3963.0 99% 3963.0 95% 3963.0 90% 2088.0 75% Q3 1859.5 50% Median 1379.0 25% Q1 1165.5 10% 1033.0 5% 1021.0 1% 1021.0 0% Min 1021.0 Extreme Observations ----Lowest---- ----Highest--- Value Obs Value Obs 1021 15 1844 8 1033 13 1875 4 1067 16 1905 3 1097 9 2088 2 1234 14 3963 1 Stem Leaf # Boxplot 4 0 1 * 3 3 2 2 1 1 | 1 899 3 +--+--+ 1 00112444444 11 *-----* ----+----+----+----+ Multiply Stem.Leaf by 10**+3 Normal Probability Plot 4250+ | * | ++++++ 2750+ +++++++ | +++++++* | +++++++* * * 1250+ * * * *+*+*+** * * +----+----+----+----+----+----+----+----+----+----+ -2 -1 0 +1 +2 -------------------------------------------- sexe=H ------------------------------------ The UNIVARIATE Procedure Variable: salaire (salaire en euros) Moments N 15 Sum Weights 15 Mean 2264.33333 Sum Observations 33965 Std Deviation 1395.26227 Variance 1946756.81 Skewness 1.74834242 Kurtosis 3.26071832 Uncorrected SS 104162677 Corrected SS 27254595.3 Coeff Variation 61.6191199 Std Error Mean 360.25517 Basic Statistical Measures Location Variability Mean 2264.333 Std Deviation 1395 Median 1951.000 Variance 1946757 Mode . Range 5129 Interquartile Range 1160 Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student's t t 6.28536 Pr > |t| <.0001 Sign M 7.5 Pr >= |M| <.0001 Signed Rank S 60 Pr >= |S| <.0001 Tests for Normality Test --Statistic--- -----p Value------ Shapiro-Wilk W 0.814436 Pr < W 0.0057 Kolmogorov-Smirnov D 0.230963 Pr > D 0.0300 Cramer-von Mises W-Sq 0.165237 Pr > W-Sq 0.0136 Anderson-Darling A-Sq 0.983563 Pr > A-Sq 0.0097 Quantiles (Definition 5) Quantile Estimate 100% Max 6097 99% 6097 95% 6097 90% 4268 75% Q3 2507 50% Median 1951 25% Q1 1347 10% 1036 5% 968 1% 968 0% Min 968 Extreme Observations ----Lowest---- ----Highest--- Value Obs Value Obs 968 15 2286 4 1036 13 2507 6 1082 14 3353 3 1347 10 4268 2 1353 11 6097 1 Stem Leaf # Boxplot 6 1 1 * 5 4 3 1 0 3 4 1 | 2 02235 5 +--+--+ 1 0013449 7 +-----+ 0 ----+----+----+----+ Multiply Stem.Leaf by 10**+3 Normal Probability Plot 6500+ * | ++++++ | *+++++++ 3500+ +++*+++ | +++**+* * | * *+*+*+** * 500+ *+++++++ +----+----+----+----+----+----+----+----+----+----+ -2 -1 0 +1 +2
Les deux analyses ci-dessus correspondent au calcul de statistiques univariées sur les deux sous-populations définies par les modalités de la variable sexe (instruction BY) : sous-population masculine et sous-population féminine. Outre la sortie standard, un test de normalité a été édité : vu que la taille de notre échantillon est inférieure à 2000 individus, on se réfère au test de Shapiro-Wilk. La p-value étant très inférieure à 0,05 dans les deux cas, on rejette à 5% l'hypothèse d'adéquation à une loi normale des deux distributions de salaire considérées.
Ci-après l'édition des boîtes à moustaches générées par l'option PLOT.
The UNIVARIATE Procedure Variable: salaire (salaire en euros) Schematic Plots | 6500 + | | | * 6000 + | | | 5500 + | | | 5000 + | | | 4500 + | | 0 | 4000 + * | | | 3500 + | | | | | | 3000 + | | | | | | | 2500 + +-----+ | | | | | + | | | | | 2000 + | *-----* | +-----+ | | | | | | | | | + | | | 1500 + | | | | | *-----* +-----+ | | | | | +-----+ | 1000 + | | ------------+-----------+----------- sexe F H
On préfèrera éditer les boxplots avec une procédure adaptée, soit la PROC BOXPLOT.