Moyenne, écart-type et médiane

Dernière mise à jour: 2011-08-12 à 03:51 Posté par S.B., le 2008-04-14, dans la catégorie Divers

 

Petit mémo de statistiques élémentaires

Le mot statistique trouve son origine du mot latin status qui signifie état. Les statistiques peuvent être définies comme l'ensemble des techniques permettant d'observer, d'étudier, une série de données caractérisées.

Définitions

Boulier de loto

  • Population ou Collection
    Ensemble caractérisé de tous les éléments observables.
    Exemple: L'ensemble des boules contenues dans le panier de l'image ci-contre constitue la population observable.
  • Caractère d'une collection
    Point commun (caractère) entre tous les éléments d'une collection.
    Exemple : "porte un numéro" est un caractère de la population formée par l'ensemble des boules. "Couleur" est un autre caractère possible de la collection.
  • Individu
    Elément de la collection.
    Exemple: UNE boule du panier.
  • Modalité
    Valeur portée par le caractère d'un individu.
    Exemple : 14, est une valeur inscrite sur une, ou plusieurs, boules du panier.
  • Effectif d'une modalité
    Quantité d'individu vérifiant la modalité d'un caractère.
    Exemple: Pour le caractère 'couleur', l'effectif de la modalité 'bleue' est le résultat du comptage des boules de cette couleur.
  • Fréquence d'une modalité
    Ratio de l'effectif de la modalité sur la taille de l'échantillon. Généralement exprimé en pourcentage.
    Exemple: Sur 49 boules 8 sont de couleurs vertes. La fréquence de la modalité 'verte' est 8/49, approximativement 0,16, soit 16%.
  • Échantillon
    Portion, fraction, sous-ensemble de la collection.
    Exemple: L'échantillon constitué par les sept numéros tirés.
  • Mode (le) d'un échantillon
    Modalité(s) dont l'effectif est maximum. Ou encore modalité(s) dont la fréquence est maximum. Si l'échantillon présente deux modes on dit alors qu'il est bimodal.
  • Taille de l'échantillon
    Comptage du nombre d'individu constituant un échantillon.
    Exemple: La taille de l'échantillon prélevé par l'opération de tirage est de 7 (boules).
  • Prélèvement
    Opération permettant de constituer l'échantillon.
    Exemple: Le tirage (au sort).
  • Étendue (range)
    Différence des valeurs extrêmes prisent par la modalité quantitative d'un échantillon.
    Exemple: La valeur la plus élevé inscrite sur une boule du panier vaut 49 et la plus basse vaut 1. L'étendue est donc de 49 - 1 = 48.

Moyenne arithmétique

La moyenne arithmétique, (moyenne empirique, espérance de vie, selon le domaine mathématique), est la moyenne ordinaire, soit la somme des valeurs quantitatives (exprimant une quantité) d'un échantillon divisée par la taille de l'échantillon.

Moyenne arithmétique de \(x\), notée \(\overline{x}\) :

$$\overline{x} = \frac{1}{n} \sum_{i=1}^{n} {x_{i}}$$

Exemple avec le langage Python d'une fonction de calcul de la moyenne arithmétique:

1
2
3
4
5
6
7
8
9
    random.seed(71)
    collection = [ random.randrange(100) for x in range( 121 ) ]
    echantillon = collection[14:-7]

    def stat_moyenne( echantillon ) :
        taille = len( echantillon )
        moyenne = sum( echantillon ) / taille
        return moyenne
    45

Exemples:

  • Quantité moyenne d'eau de pluies tombée par semaine.
  • Quantité moyenne d'électricité consommée par semestre.
  • Quantité moyenne de fioul consommé par jour.

Variance

La Variance est une mesure arbitraire servant à caractériser la dispersion d'un échantillon autour de sa valeur moyenne. Dit autrement, la variance quantifie les écarts à la moyenne. On appelle aussi cela mesurer les caractères de dispersion d'une série statistique ou plus brièvement mesure de dispersion. En théorie des probabilités la variance représente en un certain sens le degré d'incertitude de la variable aléatoire étudiée.

Variance, noté \(\sigma^2\) (sigma carré) :

$$V(x) = \sigma^2(x) = \frac{1}{n} \sum_{i=1}^{n} {(x_{i}-\overline{x})^2}$$

ou, version réduite ([[div:math:moyenne-et-ecart-type-rt|démonstration]]) :

$$\sigma^2 = \frac{\sum_{i=1}^{n}{{x_i}^2}}{n} - \overline{x}^2$$

Exemple en langage Python d'une fonction de calcul de la variance:

1
2
3
4
5
6
7
    def stat_variance( echantillon ) :
        n = len( echantillon ) # taille
        mq = stat_moyenne( echantillon )**2
        s = sum( [ x**2 for x in echantillon ] )
        variance = s / n - mq
        return variance
    719

Écart-type

La variance étant un carré (on dit aussi quadratique), sa dimension n'est pas celle de la moyenne. C'est pourquoi on utilise plus souvent l'écart-type, noté \(\sigma\) (sigma), qui est la racine carré de la variance. L'écart-type rapproche la dimension de la variance à celle de la moyenne. Le résultat de ce calcul est aussi appelé écart quadratique moyen.

Écart type, noté \(\sigma\) (sigma) :

$$\sigma=\sqrt{V(x)}$$

Exemple en langage Python d'une fonction de calcul de l'écart-type:

1
2
3
4
5
    def stat_ecart_type( echantillon ) :
        variance = stat_variance( echantillon )
        ecart_type = math.sqrt( variance )
        return ecart_type
    26.81

Plus l'écart-type est petit - proche de 1 - plus la dispersion est centré autour de la moyenne.

Médiane

La médiane, noté \(M(x)\), d'un échantillon trié par ordre croissant est la modalité de l'individu pivot (quantile, noté \(q_o\)) autour duquel se forme deux sous échantillons de même taille. On remarque alors que, par définition, la médiane n'existe que pour un échantillon de taille impaire...

Lorsque la modalité des individus n'est pas quantitative (n'est pas une quantité de) alors la médiane est préférée à la moyenne ordinaire. En effet, la sommation des modalités numériques peut avoir un sens trompeur: Un trou de diamètre 12 n'est pas équivalent à un trou de diamètre 6 "plus" un trou de diamètre 4 "plus" un trou de diamètre 2.

Échantillon de taille impaire

  • \(taille=2p+1\), alors

$$M(x) = x_p$$

Exemple pour l'échantillon suivant (ex: note d'un élève): $$x = ( 3; 7; 8; 12; 19 )$$ $$taille(x) = 5 = 2p+1 \rightarrow p=2$$ $$M(x) = x_p = x_2 = 8$$

50% des notes de l'élève sont inférieures ou églaes à 8 et donc 50% de ses notes sont supérieures ou égales à 8. La moyenne vaut 9,8. Elle est moins "représentative" car elle est grandement sensible aux valeurs extrêmes.

Échantillon de taille paire

  • \(taille=2p\). Par définition la médiane n'existe pas dans ce cas. Mais il est arbitrairement possible (en fonction du contexte de l'étude) de choisir la médiane comme étant la moyenne ordinaire des modalités du couple pivot, alors

$$M(x)=\frac{{x_p + x_{p+1}}}{2}$$

Exemple pour l'échantillon suivant (ex:note d'un élève): $$x = ( 3; 7; 8; 12; 19; 20 )$$ $$taille(x) = 6 = 2p \rightarrow p=3$$ $$M(x)=\frac{{x_p + x_{p+1}}}{2}=\frac{8+12}{2}=10$$

L'échantillon ordonné divisé en quatre fait apparaitre quatre quartiles de 25% \((q_1 ... q_3)\). Le décile le divise en 10 parties (sous échantillons), le centile en 100 parties.

Références

blog comments powered by Disqus