- . ..f REIXBLIQUEDUSENEGAL it -w-m---.. ...
-
.
..f
REIXBLIQUEDUSENEGAL
it
-w-m---..
UNPEUPLE-UNEUT-UNEF01
--------
INSTITUT Z33JEGALAIS DE REKXERCY--XC
fmaco~.~3 (I.s.R.A.)
MINISTERE DE L'ENSEI- SUPERIEZfJJ?
--------
------eI
IAEORATOITZT:
NATIONAL DE L*ELEVKI:
SEC?ETARIAT D'ETAT ALA~CHEXHE
P
ETDEZWE3XHESVEI?ERINAI~S
SCIENTIFIQUE ET TECHNIQUE
;3-
I METHODES STATISTIQUES
.
I
NOTIONS COMPLEMENTAIRES A L'USAGE
DES ETUDIANTS DE L'EISMV
Par J.P. DENIS
REF.NoO46
LNEXV/'ZooT/JPD/Février 1Wl

INTRODUCTION
La statistique descriptive a essentiellement pour kt de présenter 12s
données observées sous une forme telle que l'on puisse en prendre ccnnziss?we
facilement.
Les observations consid&es sont soit quantitatives, soit qu~~itati:~e:~.
Les données quantitatives se diviswt elles mhes en dénouements (ou c%;%z-
ges) et en mesures (ou mensurations>.
Dans le cas des démmbrments la cmact&istique étudiée est une variable
de nakure discontinue ou discr&e, ne pouvant prendre que des valeurs sntie‘res
non négatives.
Dans le cas des mesures, la variable est de nature continue hauteur,
pids... 1. Hais les données dont on dislpse varient toujours d'une mi.ke
discontinue ; l'intervalle séparant deux valeurs consécutives Ix>uvant Z%rc?
ctiisi pw lîobservatwr.
Enfin les données qualitatives peuvent être assimilées au cas des varia-
bles discontinues, en suppsant que le,c différentes vhantes du caractke
qualitatif soient rangées dans un ordre correspotimt p exemple 3 la suite
des mmkes entiers psitifs (diffhntescouleurs par exemple).
A - !Statisti@é déS&'iptive à une dimension
Elle permet de conserver les données sous la forme de quelques prati~tres
ou ~&Leurs typiques. Le calcul de ces r>aramètres constitue la réduction &s
données qui peut être utilement réalisée quel que soit leur volume.
1 - LES PABWYIYES'DE POSITIONS
La mymne Cmittitique
La rf~yennti arithétique qu'on appelle tout simplement m3yerine est dkipëe
par le symkole Z.
. . ./ . . .

-2
Elle est égale à la somme des valeurs observées x1, x2, .,,. xi, . . . XT,
divisé par le nombm d'observations.
Corne chaque valeur,xi doit être prise en considération autant de %is
qu'elle a été observée,l'expw+ssion devient , dans le cas des distributions T!E
f&queme
x = k 1' ni xi
i = l
x1, ~2~... xi, . ..xp étant alors les valeurs observées (distributions mn
gmupées) ou les Feints centraux des classes ~distri~tions gmupées) et n,,
.
n2,... m, . ..np les fréquences correspondantes.
La mm-te des karts xi - x entie les valews observées et la rmyenm: c:.st
nulle, et c'est Far rapport à la myenne que la somne des carrés des &~rts est
la plus petite.
II - LES P?QWETRES DE DISPEBSION
1 - La var.hncé;'1'écart type et le coefficient de variation
1/1 - La wWiance d'une série statistique ou d'une distribution de !%k.uence
est la rmyenne mithn&ique des carrés des écarts par rappmt à la myenne I
u2 = k En (xi - Xl2
i=l
et a2 = i Zp ni (xi - ii,*
i=l
1/2 - L'&art type est la racine carré de la variance.
. . . / . . .

-3
1/3 - Le coefficient de variation est obtenu en exprimant l'écart t‘r-,?
en valeur relative ou en pour cent de ïa troyenne, lorsque celle-ci est
positive.
1/4 - ProprEtés
La variante, l'écart type et le coefficient de variation sont nuls si et
seulement si tous les écarts xi - X sont nuls, cfest-à-dire si toutes 1.~5
wleurs obser-vhz sont ég$L~s entre elles et dor?c égales à leur myennc.
Le coefficient de variation est totalement indéperhnt des unit&;: dkz
mesure utilisées. C'est un nombre pur 4 alors que l'écart type s'exprirrii
dans les mgmes unités que 1 es valeurs observées. L'un est un para&tre 6-.
dispersion relative, l'autre un indice de dispersion absolue.
La variante, l'écart type et le coefficient de variation ont des qu.Gi-c<s
comptables 2 celles de la nmyenne. Le coefficient de variation, en pz~~t?~..Zt‘n,
permet de comparer la variabilitg relative de plusieurs s&ies statistiqws
ou de plusieurs distributions de f&quence dont les ordres de gratieur SO:'&
très diffhnts.
2 - Les moments
Les nsr>ments d'ordre k par rapport au point c sont définis corrune suiT
respectivemnt pur les séries statistiques et pour les distributions de
f&quewes.
- cl k
- cl k
. . /. .*.

-4
En patipe9 on utilise presque exclusivement les rrDments rz r;:;::,,rrt
à l'origine Cc = c>
n
P
ak = i E xik ou k c
.k
ni x1
.1= 1
i = l
et les moments I?Jr EQFOrt à la II-KIyzl-lne Cc = K, CU mmts Centrés
mk = i In (xi - XIk
i = l
IL cp
- k
ou
ii i ni (xi - x>
=1
En pwticulier le mment d'ordre 1 p rappzt à l'origine se confzr.l.
avec la moyenne, le mnment centré 4'ordre 1 est toujours nul, et le m-,rwnt
centré d'ordre 2 se confond avec 13 variante.
a1
=X ml=0 m2 = (y
B - Statistique dexri@ive à deux dimensions
Elle a essentiellement pour but de mettre en évidence les relations qui
existent entre deux séries d'observations considérées si.miLtanhent.
L'étude simuJ&née de 2 séries d'observations fait intemenir les n.Iti-ns
suivantes :
-1anotion
-- g&-&alisé~;?.è nnment et la covariance
- les droites de régression au sens des motires carrés
- le c,oefficient de corrélatif et le coefficient de détermination.
La notion de ccmélation concerne la netteté ou l'intensité de la relu-
tion existant entre les '2 séries de r&CLtats, tandis que la nAiqn de reres-
sion est lige à l'allure, supp&e lingaire, de cette relation.
. . . / . . .

1 - LIES MOMENTS El? LA COVrnCE
l
h g~n&aiisation 2 2 dimensions de la notion de mment domES ~~.i>:c:-.r,c,...
.
aux expressrsns *.
' Cn (xi
K
- clk (yi - d>l
i = 1
et
1
i
ii 'i = 1 zq;, = 1 nij (xi - cjk (yi - dl1
Elles représentent les mments d'ordre k en x et d'otire 1 en y4 1:;~
rappti à c pur x et d yc,ur y,
Eh psant c = x et d = y, on obtient les mments centrés m kl aussi
appelés rrnments par rapl-crt aux mlyennes.
. h notion ~&éralisée de moment cent& permet de définir la covariance
(mil> qui caract&ise simultanément les 2 S&es d'observations.
cov (x, y> = ml1 = + z; = + - 3 (yi - y>
ou i-ql
z;
= 1 3 c?
q l nij (xi - x1 (yi - y>
L.3 covariCance est r3sitive ou négative selon que la relation en-53 L.3
2 séries de donnees est crziss,;nte et d&zroiss;ulte, c'est-à-dj.re selon C+L
les valeurs élev&s d'une série cwres;otient dans l'ensemble, aux valeurs
élevées ou aux v$Leurs pzu Glevées de l'autre.
Figure1
1
2
..s/ . . .


En effet en considérant les droites x = K et y = y, qui divisent 3.f~ ->~LX
(x, y) en 4 tigions, on peut constater que les valeurs observées sup?ri~.~.~s
aux 2 myennes ou inf&ieures aux 2 moyennes apportent une contributior 7 --::!-
tive à la covarianoe, les écarts p3.r rapLprt aux moyennes étant de m@m> ci,-:~:..
alors que les valeurs r)bserv&e~3 supérieures à une moyenne et inf&.Gwk.s '.
l'autre lui apprtent une cc>ntribution kgative, les &zrts p?r X-BF;:-r-t :.':x
myennes étant de signes contraires.
la covariance est toujours, en valeur absolue, inférieure ou égale c7ü
produit des écarts types.
cov (x, y)
d 0x ay
I
/
II - JXS DROITES DE REGRFSSION AU SEXS DES PIOJJDRES CARRES
Droite de &Session de y en x
Le diagramme de régression de y en fonction de x (ou de y en x) est ~xT-&
des points conditionnels (xi, yi). Il donne une idée de la fapn dont varie
en rmyenne la variable y, dite depetiante, en fonction de la variable x, cite
iaxsépetiante.
pids (y>
.
.
.
.
.
Age - (xl
Lorsque le diagranne de tigression est lin&&re ou approxirrativcment
linéaire, on ,ieut rechercher l'écpation de la &G.te qui S'y ajuste lemieu>d;.
Cette droite de'&,pession, dite aussi droite de &pession de y en x, est
généralement determinée par 1a méthode des moindres carrés, c'est-à-dire L%:
manière à rerdre minimum la somme des carres des écarts entre les ioi.nts
observés et les pints correspondants de la droite.
. . ./ . . .

-7
Si l'équation de la droite est y = a + bx et si on dispose d'une P :.:i&.:
de valeurs observées (xi, yi) la somme des carrés des harts à mini~isw .Y: :
cv
1çYi - y (xi>-j2 = Zn
(yi - a - bxi>'
1=
1=1
Les valeurs xi et yi étant connues, cette sonrme est fonction unique:.:;1-.L
des para&-tres a et b. Le rrtiimum peut dom être déterminé en annùl.~~;-i 15:
dérivées partielles par rapport à a et par rapport à b, ce qui perm& (Ij'&.clir~
les équations mrwales qui indiquent que la ~~ITE-IE algébrique des écarts entre
les valeurs observées et les ordonnées correspondan-ksde la droite de ~~+XX-
sion est nulle : les écarts négatifs, relatifs aux p3ints si-tu& en dilsso~
de la droite, compensent exactement les écarts positifs, relatifs aux FO~LS
situés au dessus de la droite. OR en déduit aussi que :
? =a+bs
ou a= 7 - b;
c'est-à-dire que la droite de régression passe par le point myen CG, ;Ii.
D'autre part, on peut écrire la droite de régression de y en x sou:' 1~
forme :
Y= cov kl Y) (x _ 2) + y
02X
ou Y = byx (x - z, + i;
Le coefficient byx étant le coefficient de r&ression de y en x.
Droite de régression de x en y
On peut définir par raison de sym&trie la droite de &gression de x cil y
en calculant le minimum de la somme des carrés parallèlement à l'axe des
Abcisses x.

Cette cImite es-l delle que
ou bxy est 3-c coefficient de régression de x en y
bxy ; cov (x, y>
5? T'-8
Variame résiduel-le et écart type r&i.duel de y
On appelle rhidus de y par mpprt à x les karts
Yi - y (xi>
entre les points observés et les points correspondants de la droite de
régression de y en x,
La variame rkiduelle de y est la variance de ces résidus c'est-s-dire :
cr2y x = ; ry =l-~i-
l-
y (xi>]' (2.1
1 p
ou
a2y x = K ci
cq
~1
nij
j=l
[yi - y (xi)]2
on peut écrire p3ur E (1) série statistique]
a2y x = 02y - cov2 (x, y/ /02x
La variamze rhiduelle de y appara?t corne un indice de'dispersion des
points observés autour de la droite de régression de y en x. L+I qumtit6
cov2 (x, y)
peut être considétie comte 2.3 part de la vaCame de y qui est %xpliqu&'
pw la régession de y en x, ta&is que la variame &siduelle 02y x est i.!-I
pztrt de cette variame qui ne peut être ainsi expliquée.
L'&art type &siduel est la mcinz carrée de la variance rkiduelle.
. . . / . . .

-9
III - LE COEmCIH\\3T DE COPREIATIO~ FT LE COEFFICIENT DE DmRf,?INATION
On a vu qur la covariancc est toujours infi;-rieure ou égale en valt~w
absolue, au pmduit des hrts types, Le coefficient de corrélation est 12
rapport de la covariance à cette VZ&S.P mininmm. On le désigne pur Lt: C;;CL~~?
r ou rxy
??= cov (x, y)
0x cry
On voit ainsi que le coefficimt de corrélation Fssède le même sigm C&H?
la covarjance et qu'il est toujours compris e@zre - 1 et + 1.
VS = 1 si tous les points observés se trouvent sur une mSme droite de
coefficient angulaire positif
Y
/.//
X
o<r<l Si le nuage des @k,c est allong& parallèlement à une telle droitci
,../--.
Y
.Y
,Y” x x
1
/ X
X
xx/
:
x xx /’
i
x
x /’
i
X/-“’
x.-r--
l
x
?? = o si le nuage de points est allong6 pzxllèlmmt à l'une des axes d<?
coordonnéês ou s'il a une forme armm2i.e.
. . . / . . .

- 10
r = -
1 si tous les peints observes se trouvent sur une ?'3<
droite de coefficient angulaire négatif.
- 1 < r< o si le nuage de peints est allongé parallèlement à une telle drcite.
I
X
Le coefficient de corrélation mesure donc la netteté de la liaison
existant entre les 2 séries d'observations9 pou?? autant que cette liaison soit
linéaire ou approximativement linéaire.
Dms le cas où s'applique la notion de régression de y en x, on peut en
déduire que le carré du coefficient de cor&lation est 6~1 à la pzrt de ln
variance de y qui est "expliq&e" par la régression de y en x. Cette quanti-tg
est aussi appel& coefficient de d&ermination.
Il faut signaler que l'existence d'une corrélation mEme élevée entre
2 séries d'observations n'implique pas nécessairement l'existence d'une rei-l-
tion de cause à effet entre les 2 variables considérées.
Calcul de la do&!riance et des para&-tres dhivés
La cowariance d'une série statistique double peut s'écrire :
cov (x, y> = ; r nC. xi yi-k
-I=l
a; gy a; ,y$' 1
..* /
. . .

- 11
.-
On peut désigner par SPE ou SPE xy la quantit6 mise entre croc2wto. ._--..
est égale à la somme des produits des karts par rapport aux mya~~r.
La d&zxminatien des variantes et de la covariance nécessiter3 &::.YL !..
calcul des sommes, des sommes des car&s et de la sorfrne des produits.
n
n
n
n
n
'i = pip 'i = lyi, 'i = +', 'i = pi2 Y 'i = 1 xi yi
Les psran-&tres dérivés de la covariance peuvent se calculer ainsi :
byx =
SPE
SCEx
SPE
3?=
' SCEx SCEy -
a2y x = ; SCEy - &$$$
La qm-rtité mise entre cmchets est à la sonsne des carrés des &rc~
r&iduelle = 92Ey.x
n
1
n
n
SPE = ci = lxi yi - k "i = pi.> 'Gi = pi)
s%Ex = Zy = lxi2 - ; trn
xi12
1= 1
SCEy = X; = 1Yi2 - i (El = 1yi)2
SPE
cov (xi yi) = n.