Une statistique est une application d'une population vers un ensemble de valeurs .
-
: population finie d'individus . On va mesurer/observer un caractère particulier sur ces individus.
population
-
: ensemble des valeurs possibles du caractère, appelées aussi modalités.
modalites
-
: Statistique (parfois appelée aussi caractère). Application qui à tout individu associe la valeur de son caractère.
serie
- Une statistique peut être quantitative ou qualitative.
- Une statistique quantitative peut être discrète ou continue.
- Une statistique peut être multiple (à n paramètres).
On va se limiter à des statistiques quantitatives.
Une série statistique est un -uplet
Par exemple :
On parle alors de série statistique brute.
L'ensemble des valeurs observables de est fini. On peut écrire :
-
Effectif : nombre de fois que la valeur a été observée dans la population ou nombre d'individus admettant comme valeur du caractère.
effectif(i)
-
Effectif cumulé : nombre d'individus présentant une valeur de caractère plus petite que , ou égale. On a la relation en posant et peut remarquer que
effectifC(i)
-
frequence(i)
-
Fréquence cumulée en posant . On remarque que
frequenceC(i)
Une série statistique est une famille de la forme ou
On parle parfois de série statistique dépouillée ou de série statistique regroupée et ordonnée.
C'est la valeur du caractère d'effectif maximal
mode
Attention : il n'est pas forcément unique.
C'est la valeur du caractère qui sépare la population en deux parties égales.
Attention : parfois dificile à définir.
mediane
Dans le même esprit, on peut définir :
- les quartiles : 3 valeurs qui découpent la population en 4 parties égales. Le deuxième quartile étant alors égal à la médiane.
- les déciles : 9 valeurs qui découpent la population en 10 parties égales.
- les centiles : 99 valeurs qui découpent la population en 100 parties égales.
- ou tout autre découpage.
quantile(n)
moyenne
Remarque : si on pose et alors :
C'est la plage de valeur du caractère observée sur la population :
etendue
Attention : sensible aux erreurs de mesure.
Dans le même ordre d'idée que l'étendue, on peut donner l'intervalle séparant le plus petit et le plus grand décile (80% de la population) ou celui séparant le quartile inférieur et le quartile supérieur (50% de la population) ou tout autre intervalle définie de manière similaire.
Intérêt : Élimine les mesures aberrantes.
Calcule la moyenne des écarts à la moyenne.
ecartMoyen
Calcule la moyenne des carrés des écarts à la moyenne.
variance
Relation de Koenig-Huygens
C'est la racine carré de la variance : même dimension que le caractère étudié.
ecartType
moment(k)
momentCentre(k)
Propriétés:
- (Relation de Koenig-Huygens)
- Si une série statistique est symétrique par rapport à sa moyenne alors tous ses moments centrés d'ordre impair sont nuls.
- Par contre il ne sufft pas de vérifier que pour conclure que la série est symétrique par rapport à sa moyenne.
asymetrie()
- série symétrique
- grands écarts positifs % à la moyenne ("bosse décalée vers la gauche")
- grands écarts négatifs % à la moyenne ("bosse décalée vers la droite")
- le coeffcient d'asymétrie est considéré comme significatif lorsque
- S'applique essentiellement à une série unimodale.
aplatissement()
- Une grande valeur de traduit un resserrement autour de la moyenne ("courbe en pic")
- Une petite valeur de traduit un étalement de la série ("courbe plate")
- Si la distribution est normale alors
- S'applique essentiellement à une série unimodale.
Lorsque est un caractère continu ou que les fréquences sont faibles ( proche de ) on est amené à découper le domaine de valeurs de en classes (sous-intervalles).
avec et
classer([limites des classes])
Intérêt : Représentation graphique (histogramme) et mise en évidence d'une classe modale (classe de hauteur maximale dans l'histogramme)
Les classes peuvent être éventuellement de largeurs différentes.
- On note alors l'effectif de la classe .
- On peut ensuite définir , et comme vu précédemment pour une série statistique dépouillée.
La série est alors donnée sous la forme de la famille On parle alors d'une série statistique en classes ou regroupée en classes ou encore, parfois, classée.
- À toute série classée on peut faire correspondre une série statistique dépouillée où est le centre de la classe .
Lorsque la statistique est découpée en classes, on ne la représente plus par un diagramme en bâtons, mais par un histogramme. Chaque classe est représentée par un rectangle dont la base est proportionnelle à la largeur de la classe et la surface proportionnelle à l'effectif (ou, ce qui revient au même, à la fréquence) de la classe. C'est bien la surface et non la hauteur du rectangle qui est proportionnelle à l'effectif. Cette remarque prend toute son importance lorsque les classes sont de largeurs différentes.
Exemple : on travaille sur une statistique découpées selon les quatre classes suivantes :
et chaque classe est d'effectif .
L'axe des ordonnées peut être vu comme une densité.
C'est la classe correspondant au rectangle le plus haut dans l'histogramme (on parle bien ici de hauteur et non de surface).Elle peut ne pas être unique. Il arrive qu'on définisse le mode de la statistique comme le milieu de la classe modale (cette définition n'est pas entièrement équivalente à celle donnée plus haut). Dans l'exemple précédent, la classe modale est la dernière (classe ) et le mode est .
On va se limiter à des statistiques quantitatives.
est de la forme . On peut définir deux statistiques simples à partir de
Par abus de langage, on écrit que .
Les ensembles des valeurs observables de et sont finis. On peut écrire :
- Effectif : nombre d'individus admettant comme valeur du caractère
- Effectif : nombre d'individus admettant comme première valeur du caractère ou nombre d'individus admettant comme valeur du caractère
Remarque :
$n_{i\bull}=\sum_{1\leq j\leq q}n_{ij}$ - Effectif : nombre d'individus admettant comme seconde valeur du caractère ou nombre d'individus admettant comme valeur du caractère
Remarque :
$n_{\bull j}=\sum_{1\leq i\leq q}n_{ij}$
On définit également les effectifs cumulés et ainsi que les fréquences , , , , et en divisant les effectifs correspondants par . Ainsi, par exemple :
Elle donne une mesure du lien existant entre les deux caractères et .
Si les deux caractères sont indépendants l'un de l'autre alors la covariance est nulle. Réciproque fausse.C'est une normalisation de la covariance qui évite les effets d'échelle.
- Si et sont indépendants alors .Réciproque fausse.
- S'il existe une relation affine entre et alors . Réciproque fausse.
On cherche la droite d'équation approchant "au mieux" le nuage de points de la statistique double .
Cette droite passe par le point
On cherche la droite d'équation approchant "au mieux" le nuage de points de la statistique double .
Cette droite passe par le point
Les deux droites sont confondues ssi
Lorsque le nuage de points ne semble pas rectiligne, on peut chercher d'autres types de relation entre et , tout en s'appuyant sur la technique de la régression linéaire.
En passant au logarithme, la relation devient :
On calcule alors la droite de régression sur le couple
Si le résultat est et que le coeffcient de corrélation est satisfaisant, alors on admet que (i.e. et )
En passant au logarithme, la relation devient :
On calcule alors la droite de régression sur le couple
Si le résultat est et que le coeffcient de corrélation est satisfaisant, alors on admet que (i.e. et )
et
On cherche une relation de la forme où
On pose () et
Soit la matrice carrée d'ordre définie par :
Soit le vecteur et le vecteur d'inconnues