Coder Social home page Coder Social logo

projetstatspeip's Introduction

Statistiques descriptives

1.1 Généralités

Une statistique est une application d'une population vers un ensemble de valeurs .

  • : population finie d'individus . On va mesurer/observer un caractère particulier sur ces individus.

    population

  • : ensemble des valeurs possibles du caractère, appelées aussi modalités.

    modalites

  • : Statistique (parfois appelée aussi caractère). Application qui à tout individu associe la valeur de son caractère.

    serie

  • Une statistique peut être quantitative ou qualitative.
  • Une statistique quantitative peut être discrète ou continue.
  • Une statistique peut être multiple (à n paramètres).

1.2 Statistique simple (univariée)

1.2.1 Notations

On va se limiter à des statistiques quantitatives.

  • population finie de individus.

Première représentation :

Une série statistique est un -uplet
Par exemple :
On parle alors de série statistique brute.

Seconde représentation :

L'ensemble des valeurs observables de est fini. On peut écrire :

pour la suite on supposera .

  • Effectif : nombre de fois que la valeur a été observée dans la population ou nombre d'individus admettant comme valeur du caractère.

    effectif(i)

  • Effectif cumulé : nombre d'individus présentant une valeur de caractère plus petite que , ou égale. On a la relation en posant et peut remarquer que

    effectifC(i)

  • Fréquence .

    frequence(i)

  • Fréquence cumulée en posant . On remarque que

    frequenceC(i)

Une série statistique est une famille de la forme ou
On parle parfois de série statistique dépouillée ou de série statistique regroupée et ordonnée.

1.2.2 Paramètres de position

Le mode

C'est la valeur du caractère d'effectif maximal

mode

Attention : il n'est pas forcément unique.

La médiane

C'est la valeur du caractère qui sépare la population en deux parties égales.
Attention : parfois dificile à définir.

mediane

Les quantiles

Dans le même esprit, on peut définir :

  • les quartiles : 3 valeurs qui découpent la population en 4 parties égales. Le deuxième quartile étant alors égal à la médiane.
  • les déciles : 9 valeurs qui découpent la population en 10 parties égales.
  • les centiles : 99 valeurs qui découpent la population en 100 parties égales.
  • ou tout autre découpage.

quantile(n)

La moyenne arithmétique

moyenne

Remarque : si on pose et alors :

1.2.3 Paramètres de dispersion

L'étendue

C'est la plage de valeur du caractère observée sur la population :

etendue

Attention : sensible aux erreurs de mesure.

Les intervalles interquantiles

Dans le même ordre d'idée que l'étendue, on peut donner l'intervalle séparant le plus petit et le plus grand décile (80% de la population) ou celui séparant le quartile inférieur et le quartile supérieur (50% de la population) ou tout autre intervalle définie de manière similaire.

Intérêt : Élimine les mesures aberrantes.

L'écart arithmétique moyen (peu utilisé)

Calcule la moyenne des écarts à la moyenne.

ecartMoyen

L'écart quadratique moyen ou variance

Calcule la moyenne des carrés des écarts à la moyenne.

variance

Relation de Koenig-Huygens

L'écart type

C'est la racine carré de la variance : même dimension que le caractère étudié.

ecartType

1.2.4 Les moments

Moment d'ordre k

moment(k)

Moment centré d'ordre k

momentCentre(k)

Propriétés:

  • (Relation de Koenig-Huygens)
  • Si une série statistique est symétrique par rapport à sa moyenne alors tous ses moments centrés d'ordre impair sont nuls.
  • Par contre il ne sufft pas de vérifier que pour conclure que la série est symétrique par rapport à sa moyenne.

1.2.5 Paramètres de formes

Premier coeffcient de Fisher : coeffcient d'asymétrie

asymetrie()

  • série symétrique
  • grands écarts positifs % à la moyenne ("bosse décalée vers la gauche")
  • grands écarts négatifs % à la moyenne ("bosse décalée vers la droite")
  • le coeffcient d'asymétrie est considéré comme significatif lorsque
  • S'applique essentiellement à une série unimodale.

Second coeffcient de Fisher : coeffcient d'aplatissement

aplatissement()

  • Une grande valeur de traduit un resserrement autour de la moyenne ("courbe en pic")
  • Une petite valeur de traduit un étalement de la série ("courbe plate")
  • Si la distribution est normale alors
  • S'applique essentiellement à une série unimodale.

1.2.6 Découpage en classes

Lorsque est un caractère continu ou que les fréquences sont faibles ( proche de ) on est amené à découper le domaine de valeurs de en classes (sous-intervalles).

classer([limites des classes])

avec

et

Intérêt : Représentation graphique (histogramme) et mise en évidence d'une classe modale (classe de hauteur maximale dans l'histogramme)
Les classes peuvent être éventuellement de largeurs différentes.

  • On note alors l'effectif de la classe .
  • On peut ensuite définir , et comme vu précédemment pour une série statistique dépouillée.

La série est alors donnée sous la forme de la famille On parle alors d'une série statistique en classes ou regroupée en classes ou encore, parfois, classée.

  • À toute série classée on peut faire correspondre une série statistique dépouillée est le centre de la classe .

1.2.7 Histogramme

Lorsque la statistique est découpée en classes, on ne la représente plus par un diagramme en bâtons, mais par un histogramme. Chaque classe est représentée par un rectangle dont la base est proportionnelle à la largeur de la classe et la surface proportionnelle à l'effectif (ou, ce qui revient au même, à la fréquence) de la classe. C'est bien la surface et non la hauteur du rectangle qui est proportionnelle à l'effectif. Cette remarque prend toute son importance lorsque les classes sont de largeurs différentes.

Histogramme

Exemple : on travaille sur une statistique découpées selon les quatre classes suivantes : et chaque classe est d'effectif .
L'axe des ordonnées peut être vu comme une densité.

1.2.8 La classe modale (paramètre de position)

C'est la classe correspondant au rectangle le plus haut dans l'histogramme (on parle bien ici de hauteur et non de surface).Elle peut ne pas être unique. Il arrive qu'on définisse le mode de la statistique comme le milieu de la classe modale (cette définition n'est pas entièrement équivalente à celle donnée plus haut). Dans l'exemple précédent, la classe modale est la dernière (classe ) et le mode est .

1.3 Statistique double (bivariée)

1.3.1 Notations

On va se limiter à des statistiques quantitatives.

  • population finie de individus.
  • Une statistique double est une application de dans .

est de la forme . On peut définir deux statistiques simples à partir de

Première statistique marginale

Seconde statistique marginale

Par abus de langage, on écrit que .

Les ensembles des valeurs observables de et sont finis. On peut écrire :

avec et a priori

Effectifs et fréquences

  • Effectif : nombre d'individus admettant comme valeur du caractère
  • Effectif : nombre d'individus admettant comme première valeur du caractère ou nombre d'individus admettant comme valeur du caractère

    Remarque : $n_{i\bull}=\sum_{1\leq j\leq q}n_{ij}$

  • Effectif : nombre d'individus admettant comme seconde valeur du caractère ou nombre d'individus admettant comme valeur du caractère

    Remarque : $n_{\bull j}=\sum_{1\leq i\leq q}n_{ij}$

On définit également les effectifs cumulés et ainsi que les fréquences , , , , et en divisant les effectifs correspondants par . Ainsi, par exemple :

Tableau de contingence

1.3.2 Covariance et coeffcient de corrélation

Covariance

Elle donne une mesure du lien existant entre les deux caractères et .

Si les deux caractères sont indépendants l'un de l'autre alors la covariance est nulle. Réciproque fausse.

Coeffcient de corrélation

C'est une normalisation de la covariance qui évite les effets d'échelle.

  • Si et sont indépendants alors .Réciproque fausse.
  • S'il existe une relation affine entre et alors . Réciproque fausse.

1.3.3 Droite de régression linéaire

Droite de régression de Y en X

On cherche la droite d'équation approchant "au mieux" le nuage de points de la statistique double .

Cette droite passe par le point

Droite de régression de X en Y

On cherche la droite d'équation approchant "au mieux" le nuage de points de la statistique double .

Cette droite passe par le point

Les deux droites sont confondues ssi

1.3.4 Régression logarithmique

Lorsque le nuage de points ne semble pas rectiligne, on peut chercher d'autres types de relation entre et , tout en s'appuyant sur la technique de la régression linéaire.

Si on soupçonne une relation de la forme

En passant au logarithme, la relation devient :
On calcule alors la droite de régression sur le couple
Si le résultat est et que le coeffcient de corrélation est satisfaisant, alors on admet que (i.e. et )

Si on soupçonne une relation de la forme

En passant au logarithme, la relation devient :
On calcule alors la droite de régression sur le couple
Si le résultat est et que le coeffcient de corrélation est satisfaisant, alors on admet que (i.e. et )

1.3.5 Régression polynomiale

et On cherche une relation de la forme
On pose () et
Soit la matrice carrée d'ordre définie par :
Soit le vecteur et le vecteur d'inconnues

est solution du système

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.