Statistiques descriptives

1.1 Généralités

Une statistique est une application d'une population vers un ensemble de valeurs .

: population finie d'individus . On va mesurer/observer un caractère particulier sur ces individus.

population
: ensemble des valeurs possibles du caractère, appelées aussi modalités.

modalites
: Statistique (parfois appelée aussi caractère). Application qui à tout individu associe la valeur de son caractère.

serie

Une statistique peut être quantitative ou qualitative.
Une statistique quantitative peut être discrète ou continue.
Une statistique peut être multiple (à n paramètres).

1.2 Statistique simple (univariée)

1.2.1 Notations

On va se limiter à des statistiques quantitatives.

population finie de individus.

Première représentation :

Une série statistique est un -uplet
Par exemple :
On parle alors de série statistique brute.

Seconde représentation :

L'ensemble des valeurs observables de est fini. On peut écrire :

pour la suite on supposera .

Effectif : nombre de fois que la valeur a été observée dans la population ou nombre d'individus admettant comme valeur du caractère.

effectif(i)
Effectif cumulé : nombre d'individus présentant une valeur de caractère plus petite que , ou égale. On a la relation en posant et peut remarquer que

effectifC(i)
Fréquence .

frequence(i)
Fréquence cumulée en posant . On remarque que

frequenceC(i)

Une série statistique est une famille de la forme ou
On parle parfois de série statistique dépouillée ou de série statistique regroupée et ordonnée.

1.2.2 Paramètres de position

Le mode

C'est la valeur du caractère d'effectif maximal

mode

Attention : il n'est pas forcément unique.

La médiane

C'est la valeur du caractère qui sépare la population en deux parties égales.
Attention : parfois dificile à définir.

mediane

Les quantiles

Dans le même esprit, on peut définir :

les quartiles : 3 valeurs qui découpent la population en 4 parties égales. Le deuxième quartile étant alors égal à la médiane.
les déciles : 9 valeurs qui découpent la population en 10 parties égales.
les centiles : 99 valeurs qui découpent la population en 100 parties égales.
ou tout autre découpage.

quantile(n)

La moyenne arithmétique

moyenne

Remarque : si on pose et alors :

1.2.3 Paramètres de dispersion

L'étendue

C'est la plage de valeur du caractère observée sur la population :

etendue

Attention : sensible aux erreurs de mesure.

Les intervalles interquantiles

Dans le même ordre d'idée que l'étendue, on peut donner l'intervalle séparant le plus petit et le plus grand décile (80% de la population) ou celui séparant le quartile inférieur et le quartile supérieur (50% de la population) ou tout autre intervalle définie de manière similaire.

Intérêt : Élimine les mesures aberrantes.

L'écart arithmétique moyen (peu utilisé)

Calcule la moyenne des écarts à la moyenne.

ecartMoyen

L'écart quadratique moyen ou variance

Calcule la moyenne des carrés des écarts à la moyenne.

variance

Relation de Koenig-Huygens

L'écart type

C'est la racine carré de la variance : même dimension que le caractère étudié.

ecartType

1.2.4 Les moments

Moment d'ordre k

moment(k)

Moment centré d'ordre k

momentCentre(k)

Propriétés:

(Relation de Koenig-Huygens)
Si une série statistique est symétrique par rapport à sa moyenne alors tous ses moments centrés d'ordre impair sont nuls.
Par contre il ne sufft pas de vérifier que pour conclure que la série est symétrique par rapport à sa moyenne.

1.2.5 Paramètres de formes

Premier coeffcient de Fisher : coeffcient d'asymétrie

asymetrie()

série symétrique
grands écarts positifs % à la moyenne ("bosse décalée vers la gauche")
grands écarts négatifs % à la moyenne ("bosse décalée vers la droite")
le coeffcient d'asymétrie est considéré comme significatif lorsque
S'applique essentiellement à une série unimodale.

Second coeffcient de Fisher : coeffcient d'aplatissement

aplatissement()

Une grande valeur de traduit un resserrement autour de la moyenne ("courbe en pic")
Une petite valeur de traduit un étalement de la série ("courbe plate")
Si la distribution est normale alors
S'applique essentiellement à une série unimodale.

1.2.6 Découpage en classes

Lorsque est un caractère continu ou que les fréquences sont faibles ( proche de ) on est amené à découper le domaine de valeurs de en classes (sous-intervalles).

classer([limites des classes])

avec

Intérêt : Représentation graphique (histogramme) et mise en évidence d'une classe modale (classe de hauteur maximale dans l'histogramme)
Les classes peuvent être éventuellement de largeurs différentes.

On note alors l'effectif de la classe .
On peut ensuite définir , et comme vu précédemment pour une série statistique dépouillée.

La série est alors donnée sous la forme de la famille On parle alors d'une série statistique en classes ou regroupée en classes ou encore, parfois, classée.

À toute série classée on peut faire correspondre une série statistique dépouillée où est le centre de la classe .

1.2.7 Histogramme

Lorsque la statistique est découpée en classes, on ne la représente plus par un diagramme en bâtons, mais par un histogramme. Chaque classe est représentée par un rectangle dont la base est proportionnelle à la largeur de la classe et la surface proportionnelle à l'effectif (ou, ce qui revient au même, à la fréquence) de la classe. C'est bien la surface et non la hauteur du rectangle qui est proportionnelle à l'effectif. Cette remarque prend toute son importance lorsque les classes sont de largeurs différentes.

Exemple : on travaille sur une statistique découpées selon les quatre classes suivantes : et chaque classe est d'effectif .
L'axe des ordonnées peut être vu comme une densité.

1.2.8 La classe modale (paramètre de position)

C'est la classe correspondant au rectangle le plus haut dans l'histogramme (on parle bien ici de hauteur et non de surface).Elle peut ne pas être unique. Il arrive qu'on définisse le mode de la statistique comme le milieu de la classe modale (cette définition n'est pas entièrement équivalente à celle donnée plus haut). Dans l'exemple précédent, la classe modale est la dernière (classe ) et le mode est .

1.3 Statistique double (bivariée)

1.3.1 Notations

On va se limiter à des statistiques quantitatives.

population finie de individus.
Une statistique double est une application de dans .

est de la forme . On peut définir deux statistiques simples à partir de

Première statistique marginale

Seconde statistique marginale

Par abus de langage, on écrit que .

Les ensembles des valeurs observables de et sont finis. On peut écrire :

avec et a priori

Effectifs et fréquences

Effectif : nombre d'individus admettant comme valeur du caractère
Effectif : nombre d'individus admettant comme première valeur du caractère ou nombre d'individus admettant comme valeur du caractère

Remarque : $n_{i\bull}=\sum_{1\leq j\leq q}n_{ij}$
Effectif : nombre d'individus admettant comme seconde valeur du caractère ou nombre d'individus admettant comme valeur du caractère

Remarque : $n_{\bull j}=\sum_{1\leq i\leq q}n_{ij}$

On définit également les effectifs cumulés et ainsi que les fréquences , , , , et en divisant les effectifs correspondants par . Ainsi, par exemple :

Tableau de contingence

1.3.2 Covariance et coeffcient de corrélation

Covariance

Elle donne une mesure du lien existant entre les deux caractères et .

Si les deux caractères sont indépendants l'un de l'autre alors la covariance est nulle. Réciproque fausse.

Coeffcient de corrélation

C'est une normalisation de la covariance qui évite les effets d'échelle.

Si et sont indépendants alors .Réciproque fausse.
S'il existe une relation affine entre et alors . Réciproque fausse.

1.3.3 Droite de régression linéaire

Droite de régression de Y en X

On cherche la droite d'équation approchant "au mieux" le nuage de points de la statistique double .

Cette droite passe par le point

Droite de régression de X en Y

On cherche la droite d'équation approchant "au mieux" le nuage de points de la statistique double .

Cette droite passe par le point

Les deux droites sont confondues ssi

1.3.4 Régression logarithmique

Lorsque le nuage de points ne semble pas rectiligne, on peut chercher d'autres types de relation entre et , tout en s'appuyant sur la technique de la régression linéaire.

Si on soupçonne une relation de la forme

En passant au logarithme, la relation devient :
On calcule alors la droite de régression sur le couple
Si le résultat est et que le coeffcient de corrélation est satisfaisant, alors on admet que (i.e. et )