4.5 Mesures de la dispersion
4.5.3 Calculer la variance et l'écart-type

Début du texte

Contrairement à l’étendue et à l’écart interquartile, la variance est une mesure qui permet de tenir compte de la dispersion de toutes les valeurs d’un ensemble de données. C’est la mesure de dispersion la plus couramment utilisée, de même que l’écart-type, qui correspond à la racine carrée de la variance. La variance est l’écart carré moyen entre chaque donnée et le centre de la distribution représenté par la moyenne.

Exemple 1 – Calcul de la variance et de l’écart-type

Calculons la variance de l’ensemble suivant : 2, 7, 3, 12, 9.

La première étape est de calculer la moyenne. La somme est de 33 et il y a 5 nombres. La moyenne est donc de 33 ÷ 5 =6,6. Il faut ensuite calculer l’écart élevé au carré entre chaque valeur et la moyenne. Par exemple pour la première valeur :

(2 - 6,6)2 = 21,16

Les écarts carrés de chaque valeur sont ensuite additionnés :

21,16 + 0,16 + 12,96 + 29,16 + 5,76 = 69,20

Cette somme est ensuite divisée par le nombre de valeurs, soit

69,20 ÷ 5 = 13,84

La variance est donc de 13,84. Il suffit de trouver la racine carrée pour obtenir l’écart-type : 3,72.

L’écart-type est utile quand on compare la dispersion de deux ensembles de données de taille semblable qui ont approximativement la même moyenne. L’étalement des valeurs autour de la moyenne est moins important dans le cas d’un ensemble de données dont l’écart-type est plus petit. Un tel ensemble renferme comparativement moins de valeurs élevées ou de valeurs faibles. Un élément sélectionné au hasard à partir d’un ensemble de données dont l’écart-type est faible peut se rapprocher davantage de la moyenne qu’un élément d’un ensemble de données dont l’écart-type est plus élevé. L’écart-type est toutefois influencé par les valeurs aberrantes. Une seule de ces valeurs pourrait avoir une grande influence sur les résultats de l’écart-type.

Il n’est pas toujours facile d’évaluer l’importance que doit avoir l’écart-type pour que les données soient largement dispersées. L’ampleur de la valeur moyenne de l’ensemble de données affecte l’interprétation de son écart-type. Lorsque vous mesurez quelque chose qui est à l’échelle de millions, avoir des mesures qui sont près de la valeur moyenne n’a pas la même signification que lorsque vous mesurez quelque chose qui est à l’échelle de centaines. Par exemple, si après avoir mesuré les recettes annuelles de deux grandes entreprises, vous constatez un écart de 10 000 $, la différence est considérée comme étant peu significative, alors que si vous mesurez le poids de deux personnes, dont l’écart est de 30 kilogrammes, la différence est considérée comme étant très significative. Voilà pourquoi il est utile, dans la plupart des cas, d’évaluer l’importance de l’écart-type par rapport à la moyenne.

Souvenez-vous des propriétés suivantes quand vous utilisez l’écart-type :

  • L’écart-type est sensible aux valeurs aberrantes. Une seule valeur très aberrante peut accroître l’écart-type et, par le fait même, déformer le portrait de la dispersion.
  • Pour deux ensembles de données ayant la même moyenne, celui dont l’écart-type est le plus grand est celui dans lequel les données sont les plus dispersées par rapport au centre.
  • L’écart-type est égal à 0 zéro si toutes les valeurs d’un ensemble de données sont les mêmes (parce que chaque valeur est égale à la moyenne).

Ce qui explique la popularité de l’écart-type comme mesure de dispersion est son lien avec la loi normale qui décrit un grand nombre de phénomènes naturels et qui a des propriétés mathématiques intéressantes pour les grands ensembles de données. Lorsqu’une variable est distribuée selon une loi normale, l’histogramme prend la forme d’une cloche symétrique et les meilleures mesures de tendance centrale et de dispersion sont la moyenne et l’écart-type. Il s’agit d’une distribution très utile et relativement facile à utiliser. Les intervalles de confiance sont souvent basés sur la loi normale centrée réduite.

Cependant, lorsque :

  • l’ensemble de données est petit,
  • la distribution est asymétrique, ou
  • l’ensemble de données contient des valeurs extrêmes

il est mieux d’avoir recours à l’écart interquartile.


Date de modification :