Moyenne, écart-type et médiane
Petit mémo de statistiques élémentaires
Le mot statistique trouve son origine du mot latin status qui signifie état. Les statistiques peuvent être définies comme l'ensemble des techniques permettant d'observer, d'étudier, une série de données caractérisées.
Définitions
-
- Population ou Collection
- Ensemble caractérisé de tous les éléments observables.
Exemple: L'ensemble des boules contenues dans le panier de l'image ci-contre constitue la population observable.
-
- Caractère d'une collection
- Point commun (caractère) entre tous les éléments d'une collection.
Exemple : "porte un numéro" est un caractère de la population formée par l'ensemble des boules. "Couleur" est un autre caractère possible de la collection.
-
- Individu
- Elément de la collection.
Exemple: UNE boule du panier.
-
- Modalité
- Valeur portée par le caractère d'un individu.
Exemple : 14, est une valeur inscrite sur une, ou plusieurs, boules du panier.
-
- Effectif d'une modalité
- Quantité d'individu vérifiant la modalité d'un caractère.
Exemple: Pour le caractère 'couleur', l'effectif de la modalité 'bleue' est le résultat du comptage des boules de cette couleur.
-
- Fréquence d'une modalité
- Ratio de l'effectif de la modalité sur la taille de l'échantillon.
Généralement exprimé en pourcentage.
Exemple: Sur 49 boules 8 sont de couleurs vertes. La fréquence de la modalité 'verte' est 8/49, approximativement 0,16, soit 16%.
-
- Échantillon
- Portion, fraction, sous-ensemble de la collection.
Exemple: L'échantillon constitué par les sept numéros tirés.
-
- Mode (le) d'un échantillon
- Modalité(s) dont l'effectif est maximum. Ou encore modalité(s) dont la fréquence est maximum. Si l'échantillon présente deux modes on dit alors qu'il est bimodal.
-
- Taille de l'échantillon
- Comptage du nombre d'individu constituant un échantillon.
Exemple: La taille de l'échantillon prélevé par l'opération de tirage est de 7 (boules).
-
- Prélèvement
- Opération permettant de constituer l'échantillon.
Exemple: Le tirage (au sort).
-
- Étendue (range)
- Différence des valeurs extrêmes prisent par la modalité quantitative d'un échantillon.
Exemple: La valeur la plus élevé inscrite sur une boule du panier vaut 49 et la plus basse vaut 1. L'étendue est donc de 49 - 1 = 48.
Moyenne arithmétique
La moyenne arithmétique, (moyenne empirique, espérance de vie, selon le domaine mathématique), est la moyenne ordinaire, soit la somme des valeurs quantitatives (exprimant une quantité) d'un échantillon divisée par la taille de l'échantillon.
Moyenne arithmétique de \(x\), notée \(\overline{x}\) :
$$\overline{x} = \frac{1}{n} \sum_{i=1}^{n} {x_{i}}$$
Exemple avec le langage Python d'une fonction de calcul de la moyenne arithmétique:
1 2 3 4 5 6 7 8 9 | random.seed(71) collection = [ random.randrange(100) for x in range( 121 ) ] echantillon = collection[14:-7] def stat_moyenne( echantillon ) : taille = len( echantillon ) moyenne = sum( echantillon ) / taille return moyenne 45 |
Exemples:
- Quantité moyenne d'eau de pluies tombée par semaine.
- Quantité moyenne d'électricité consommée par semestre.
- Quantité moyenne de fioul consommé par jour.
Variance
La Variance est une mesure arbitraire servant à caractériser la dispersion d'un échantillon autour de sa valeur moyenne. Dit autrement, la variance quantifie les écarts à la moyenne. On appelle aussi cela mesurer les caractères de dispersion d'une série statistique ou plus brièvement mesure de dispersion. En théorie des probabilités la variance représente en un certain sens le degré d'incertitude de la variable aléatoire étudiée.
Variance, noté \(\sigma^2\) (sigma carré) :
$$V(x) = \sigma^2(x) = \frac{1}{n} \sum_{i=1}^{n} {(x_{i}-\overline{x})^2}$$
ou, version réduite ([[div:math:moyenne-et-ecart-type-rt|démonstration]]) :
$$\sigma^2 = \frac{\sum_{i=1}^{n}{{x_i}^2}}{n} - \overline{x}^2$$
Exemple en langage Python d'une fonction de calcul de la variance:
1 2 3 4 5 6 7 | def stat_variance( echantillon ) : n = len( echantillon ) # taille mq = stat_moyenne( echantillon )**2 s = sum( [ x**2 for x in echantillon ] ) variance = s / n - mq return variance 719 |
Écart-type
La variance étant un carré (on dit aussi quadratique), sa dimension n'est pas celle de la moyenne. C'est pourquoi on utilise plus souvent l'écart-type, noté \(\sigma\) (sigma), qui est la racine carré de la variance. L'écart-type rapproche la dimension de la variance à celle de la moyenne. Le résultat de ce calcul est aussi appelé écart quadratique moyen.
Écart type, noté \(\sigma\) (sigma) :
$$\sigma=\sqrt{V(x)}$$
Exemple en langage Python d'une fonction de calcul de l'écart-type:
1 2 3 4 5 | def stat_ecart_type( echantillon ) : variance = stat_variance( echantillon ) ecart_type = math.sqrt( variance ) return ecart_type 26.81 |
Plus l'écart-type est petit - proche de 1 - plus la dispersion est centré autour de la moyenne.
Médiane
La médiane, noté \(M(x)\), d'un échantillon trié par ordre croissant est la modalité de l'individu pivot (quantile, noté \(q_o\)) autour duquel se forme deux sous échantillons de même taille. On remarque alors que, par définition, la médiane n'existe que pour un échantillon de taille impaire...
Lorsque la modalité des individus n'est pas quantitative (n'est pas une quantité de) alors la médiane est préférée à la moyenne ordinaire. En effet, la sommation des modalités numériques peut avoir un sens trompeur: Un trou de diamètre 12 n'est pas équivalent à un trou de diamètre 6 "plus" un trou de diamètre 4 "plus" un trou de diamètre 2.
Échantillon de taille impaire
- \(taille=2p+1\), alors
$$M(x) = x_p$$
Exemple pour l'échantillon suivant (ex: note d'un élève): $$x = ( 3; 7; 8; 12; 19 )$$ $$taille(x) = 5 = 2p+1 \rightarrow p=2$$ $$M(x) = x_p = x_2 = 8$$
50% des notes de l'élève sont inférieures ou églaes à 8 et donc 50% de ses notes sont supérieures ou égales à 8. La moyenne vaut 9,8. Elle est moins "représentative" car elle est grandement sensible aux valeurs extrêmes.
Échantillon de taille paire
- \(taille=2p\). Par définition la médiane n'existe pas dans ce cas. Mais il est arbitrairement possible (en fonction du contexte de l'étude) de choisir la médiane comme étant la moyenne ordinaire des modalités du couple pivot, alors
$$M(x)=\frac{{x_p + x_{p+1}}}{2}$$
Exemple pour l'échantillon suivant (ex:note d'un élève): $$x = ( 3; 7; 8; 12; 19; 20 )$$ $$taille(x) = 6 = 2p \rightarrow p=3$$ $$M(x)=\frac{{x_p + x_{p+1}}}{2}=\frac{8+12}{2}=10$$
L'échantillon ordonné divisé en quatre fait apparaitre quatre quartiles de 25% \((q_1 ... q_3)\). Le décile le divise en 10 parties (sous échantillons), le centile en 100 parties.