Tableaux de fr้quence et de contingence avec la PROC FREQ

Le propos de la proc้dure PROC FREQ est de faire des statistiques univari้es ou bivari้es sur des variables nominales. Elle permet donc de dresser des tableaux de fr้quence et/ou des tableaux de contingence. C'est ้galement dans cette proc้dure que l'on trouvera l'opportunit้ de faire des tests du c2.

PROC FREQ data= <order= > ;
  TABLES listes_variables </options> ;
  < BY variable ; >
  < WEIGHT variable ; >

Les options :

La plus int้ressante est l'option order= , qui permet de choisir l'ordre dans lequel les modalit้s apparaissent. Retenons que order=freq trie le tableau de fr้quence par ordre d'effectif d้croissant, order=data le trie selon l'ordre d'apparition des modalit้s dans la table.

L'instruction TABLES et ses options :

L'instruction TABLES peut prendre deux formes :

L'option out= permet d'enregistrer le r้sultat de l'instruction TABLES dans une table.

Les autres options peuvent ๊tre r้sum้es dans les tableaux suivants :

Options pour un tableau de fr้quence
ce que la proc้dure ้ditecomment le supprimer
effectif de la modalit้nofreq
pourcentagenopercent
effectifs cumul้snocum
pourcentages cumul้s


Options pour un tableau de contingence
Par d้faut
ce que la proc้dure ้ditecomment le supprimer
effectif de la casenofreq noprint
poucentagesnopercent
pourcentages en lignenorow
pourcentages en colonnenocol


Options pour un tableau de contingence
En plus
ce que la proc้dure peut ้ditercomment le demander
effectifs th้oriques expected
้carts entre effectif th้orique et r้el deviation
contributions เ la distance du c2 cellchi2
test du c2 et statistiques d้riv้es du c2 chisq

Lecture de sorties :

proc freq data=malib.bidon;
 tables zone taille*zone;
run;


                                       The FREQ Procedure

                                                     Cumulative    Cumulative
                    zone    Frequency     Percent     Frequency      Percent
                    _________________________________________________________
										
                    IF             4        8.00             4         8.00
                    NE             9       18.00            13        26.00
                    NW             2        4.00            15        30.00
                    SE            15       30.00            30        60.00
                    SW            20       40.00            50       100.00


                                     Table of taille by zone

                 taille     zone

                 Frequency‚
                 Percent  ‚
                 Row Pct  ‚
                 Col Pct  ‚IF      ‚NE      ‚NW      ‚SE      ‚SW      ‚  Total
                 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
                 1        ‚      0 ‚      4 ‚      0 ‚     11 ‚     18 ‚     33
                          ‚   0.00 ‚   8.00 ‚   0.00 ‚  22.00 ‚  36.00 ‚  66.00
                          ‚   0.00 ‚  12.12 ‚   0.00 ‚  33.33 ‚  54.55 ‚
                          ‚   0.00 ‚  44.44 ‚   0.00 ‚  73.33 ‚  90.00 ‚
                 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
                 2        ‚      1 ‚      4 ‚      2 ‚      4 ‚      2 ‚     13
                          ‚   2.00 ‚   8.00 ‚   4.00 ‚   8.00 ‚   4.00 ‚  26.00
                          ‚   7.69 ‚  30.77 ‚  15.38 ‚  30.77 ‚  15.38 ‚
                          ‚  25.00 ‚  44.44 ‚ 100.00 ‚  26.67 ‚  10.00 ‚
                 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
                 3        ‚      3 ‚      1 ‚      0 ‚      0 ‚      0 ‚      4
                          ‚   6.00 ‚   2.00 ‚   0.00 ‚   0.00 ‚   0.00 ‚   8.00
                          ‚  75.00 ‚  25.00 ‚   0.00 ‚   0.00 ‚   0.00 ‚
                          ‚  75.00 ‚  11.11 ‚   0.00 ‚   0.00 ‚   0.00 ‚
                 ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
                 Total           4        9        2       15       20       50
                              8.00    18.00     4.00    30.00    40.00   100.00

Voilเ le genre de commentaires que l'on peut faire :
40% des entreprises du secteur Bidon sont install้es dans le sud ouest, ce qui repr้sente 20 firmes. 90% de ces firmes sont des petites entreprises et 10% sont des PME. Les PME se retrouvent en effet majoritairement dans l'est, le nord est et le sud est regroupant chacun plus de 30% des entreprises concern้es. Les grandes entreprises sont rares dans le secteur, puisqu'elles n'en repr้sentent que 8%.

proc freq data=malib.bidon ;
 tables distribution*taille /chisq cellchi2 norow nocol;
 where distribution NE 'nationale';
run;
                                       The FREQ Procedure

                                 Table of distribution by taille

                       distribution     taille

                       Frequency      ‚
                       Cell Chi-Square‚
                       Percent        ‚1       ‚2       ‚3       ‚  Total
                       ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
                       locale         ‚     33 ‚      9 ‚      0 ‚     42
                                      ‚ 0.7857 ‚ 0.4121 ‚ 2.5714 ‚
                                      ‚  67.35 ‚  18.37 ‚   0.00 ‚  85.71
                       ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
                       r้gionale      ‚      0 ‚      4 ‚      3 ‚      7
                                      ‚ 4.7143 ‚ 2.4725 ‚ 15.429 ‚
                                      ‚   0.00 ‚   8.16 ‚   6.12 ‚  14.29
                       ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
                       Total                33       13        3       49
                                         67.35    26.53     6.12   100.00


                         Statistics for Table of distribution by taille

                     Statistic                     DF       Value      Prob
                     ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
                     Chi-Square                     2     26.3846    <.0001
                     Likelihood Ratio Chi-Square    2     24.1431    <.0001
                     Mantel-Haenszel Chi-Square     1     24.0833    <.0001
                     Phi Coefficient                       0.7338
                     Contingency Coefficient               0.5916
                     Cramer's V                            0.7338

                      WARNING: 67% of the cells have expected counts less
                               than 5. Chi-Square may not be a valid test.

                                        Sample Size = 49

La ligne Chi-Square du tableau g้n้r้ par l'option chisq nous indique la valeur de la distance du c2 et la p-value associ้e. Ici on rejetterait l'hypoth่se nulle d'ind้pendance des variables. Cela dit, on remarque que la plus grosse contribution เ la distance provient des trois grandes entreprises เ distribution r้gionale du secteur. Bien que l'existence d'une corr้lation semble ้vidente เ l'œil, on peut s'interroger sur la validit้ du test du c2 sur un ้chantillon aussi petit. D'ailleurs, SAS nous met en garde !