L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.
Lorsqu’on ordonne les observations d’une variable, la valeur médiane correspond à l’observation qui se trouve au point milieu de cette liste ordonnée. Elle correspond plus précisément à un pourcentage cumulé de 50 % (c’est-à-dire que 50 % des valeurs sont supérieures à la médiane et 50 % lui sont inférieures). La position de la médiane est :
la valeur à la position (n + 1) ÷ 2, le n désignant le nombre de valeurs dans un ensemble de données.
Pour calculer la médiane, il faut d’abord ordonner les données (les trier dans l’ordre ascendant). La médiane est le nombre qui se situe au point milieu.
Médiane = la valeur du milieu d’un ensemble de données ordonnées
On calcule habituellement la médiane pour des variables numériques, mais on peut également la calculer pour des variables catégoriques qui sont séquentielles, comme les catégories d’un sondage sur la satisfaction (excellent, bon, satisfaisant et médiocre). On peut classer ces catégories qualitatives en ordre donc elles sont considérées comme des mesures ordinales.
Dans le cas des données brutes, la médiane est la valeur pour laquelle exactement la moitié des données se situent au-dessus, tandis que l’autre moitié lui est inférieure. Ces deux moitiés se rencontrent à la position médiane. Si le nombre d’observations est impair, la médiane s’avère parfaite et le nombre à la position de la médiane sera un nombre entier. Par ailleurs, si le nombre d’observations est pair, la position de la médiane sera une décimale. Vous devez trouver le point milieu entre les valeurs d’un côté et de l’autre de la position de la médiane.
Supposons qu’un champion coureur effectue une course d’entraînement typique de 200 mètres dans les temps suivants :
26,1 secondes, 25,6 secondes, 25,7 secondes, 25,2 secondes et 25,0 secondes.
Comment calcule-t-on le temps médian?
On commence d’abord en classant les valeurs dans l’ordre ascendant : 25,0, 25,2, 25,6, 25,7 et 26,1.
On utilise ensuite la formule qui suit pour déterminer quelle valeur constitue la valeur du milieu. Rappelons que n représente le nombre de valeurs qui se trouve dans l’ensemble de données.
Médiane = la valeur à la position (n + 1) ÷ 2
= (5 + 1) ÷ 2
= 3
Donc la troisième valeur dans l’ensemble de données sera la médiane. Comme la troisième valeur est 25,6 secondes, elle constituera le temps médian.
= 25,6 secondes
Maintenant, disons que le coureur effectue sa sixième course de 200 mètres en 24,7 secondes. Dans ce cas, quelle est la valeur médiane?
On place, encore une fois, les données dans l’ordre ascendant : 24,7, 25,0, 25,2, 25,6, 25,7, 26,1. On utilise ensuite la même formule pour calculer le temps médian.
Médiane = la valeur à la position (n + 1) ÷ 2
= (6 + 1) ÷ 2
= 7 ÷ 2
= 3,5
Comme il y a un nombre pair d’observations dans cet ensemble de données, il n’y a pas de valeur du milieu distincte. La médiane tombe entre les 3e et 4e valeurs, c’est-à-dire la 3,5e observation dans l’ensemble de données. On calcule donc la médiane en établissant la moyenne des deux valeurs du milieu, 25,2 et 25,6. Utilisez la formule ci-dessous pour calculer la valeur moyenne.
Moyenne = (valeur au-dessous de la médiane + valeur au-dessus de la médiane) ÷ 2
= (troisième valeur + quatrième valeur) ÷ 2
= (25,2 + 25,6) ÷ 2
= 50,8 ÷ 2
= 25,4
La valeur 25,4 se situe directement entre les troisième et quatrième valeurs dans cet ensemble de données. Le temps médian est donc de 25,4 secondes.
Pour trouver la médiane à partir des fréquences cumulées (ou le nombre d’observations qui se situent au-dessus ou au-dessous d’une valeur particulière dans un ensemble de données), vous devez calculer la première valeur à l’aide d’une fréquence cumulée égale ou supérieure à la valeur médiane. Si la valeur médiane est exactement supérieure de 0,5 à la fréquence cumulée de la valeur précédente, la médiane constituera alors le point milieu entre les deux intervalles.
Imaginez que le nombre de coups de circuit frappés en dix parties par l’équipe de baseball de votre école s’établit comme suit :
4, 5, 8, 5, 7, 8, 9, 8, 8, 7
Si vous deviez consigner le nombre total de coups de circuit frappés dans un tableau de fréquences, quel serait la médiane?
Vous devez d’abord classer les résultats dans l’ordre ascendant :
4, 5, 5, 7, 7, 8, 8, 8, 8, 9
Construisez ensuite un tableau comportant deux colonnes. L’étiquette de la première colonne devrait s’intituler « Nombre de coups de circuit frappés ». Ensuite, indiquez le nombre de coups de circuits frappés que l’équipe pourrait possiblement réaliser. Vous pouvez commencer par 0 en augmentant progressivement jusqu’à 10, mais comme l’équipe n’a jamais réalisé plus de 4 coups de circuits frappés, vous pourriez peut-être commencer par le nombre 4.
L’étiquette de la deuxième colonne devrait s’intituler « Fréquence ». Inscrivez dans cette colonne le nombre de fois que l’équipe a réalisé 4 coups de circuit frappés, 5 coups de circuit frappés et ainsi de suite. Dans ce cas, bien que l’équipe ait réalisé 4 coups de circuit frappés une seule fois, elle a en réalisé 5 à deux reprises. Si vous additionnez tous les chiffres dans la colonne « Fréquence », le total devrait être 10 (soit le nombre de parties disputées).
Nombre de coups de circuit frappés (x) | Fréquence (f) |
---|---|
4 | 1 |
5 | 2 |
6 | 0 |
7 | 2 |
8 | 4 |
9 | 1 |
Vous devez utiliser la même formule pour trouver la médiane :
Médiane = la valeur à la position (n + 1) ÷ 2
= (10 + 1) ÷ 2
= 11 ÷ 2
= 5,5
= la médiane est la 5,5e valeur dans l’ensemble de données
Pour obtenir la médiane, vous devez additionner chaque nombre inscrit dans la colonne « Fréquence » jusqu’à ce que vous obteniez 5 comme total (puisque 10 parties ont été disputées, le total des nombres restant dans la colonne sera aussi égal à 5). Vous obtiendrez le total de 5 après avoir additionné toutes les fréquences allant jusqu’à 7 coups de circuit frappés inclusivement. Le prochain ensemble de cinq commence par les fréquences pour 8 coups de circuit frappés. La médiane (c’est-à-dire la 5,5e valeur) se situe entre les cinquième et sixième valeurs. Par conséquent, la médiane se situe entre les 7 et 8 coups de circuit frappés.
Si vous calculez la moyenne de ces valeurs (en utilisant la même formule que celle employée pour l’exemple 2), le résultat doit être 7,5.
Moyenne = (valeur précédent le milieu + valeur qui suit le milieu) ÷ 2
= (cinquième valeur+ sixième valeur) ÷ 2
= (7 + 8) ÷ 2
= 15 ÷ 2
= 7,5
Techniquement, la médiane doit correspondre à une variable possible. Dans l’exemple ci-dessus, les variables sont discrètes et sont toujours des nombres entiers. Par conséquent, 7,5 n’est pas une variable possible, puisque personne ne peut frapper 7,5 coups de circuit. Ce nombre est significatif seulement dans un contexte statistique. Certains mathématiciens pourraient faire valoir que 8 est une médiane plus appropriée.
Il est parfois préférable de ne pas inscrire toutes les variables individuelles dans un tableau de distribution de fréquences lorsque celui-ci deviendrait trop long et difficile à utiliser. Pour simplifier l’opération, divisez l’étendue de données en intervalles, puis indiquez les intervalles dans un tableau de distribution de fréquences qui comprendra une colonne pour le pourcentage cumulé. (Pour plus de renseignements, consultez la section Fréquence cumulée.)
Le calcul de la médiane prend un peu plus de temps, parce que les données ont été groupées en intervalles, ce qui fait que toute l’information originale a été perdue. Dans certains manuels, on utilise seulement le point milieu d’un intervalle comme médiane. Toutefois, cela est une simplification de la valeur réelle. Effectuez les calculs suivants pour trouver la médiane dans une distribution de fréquences groupées.
Si la fréquence cumulée de l’intervalle est exactement 50 %, la valeur médiane constituera donc l’extrémité de cet intervalle.
Voici un exemple pour vous aider à mieux comprendre!
En utilisant les mêmes renseignements que dans l’exemple 4 de la section sur la moyenne, imaginez que vous avez effectué une enquête auprès de 50 filles de 10e année afin de savoir quelle est la taille de chacune d’elles, en centimètres. Après avoir rassemblé toutes vos données, créez un tableau de distribution de fréquences qui ressemble un peu à celui-ci :
Taille (cm) | Fréquence (f) | Extrémité (x) | Fréquence cumulée | Pourcentage | Pourcentage cumulé |
---|---|---|---|---|---|
150 à < 155 | 4 | 155 | 4 | 8 | 8 |
155 à < 160 | 7 | 160 | 11 | 14 | 22 |
160 à < 165 | 18 | 165 | 29 | 36 | 58 |
165 à < 170 | 11 | 170 | 40 | 22 | 80 |
170 à < 175 | 6 | 175 | 46 | 12 | 92 |
175 à < 180 | 4 | 180 | 50 | 8 | 100 |
À l’aide des données groupées, tracez un diagramme de fréquences cumulées pour accompagner votre tableau. Dessinez dans votre diagramme les extrémités des intervalles de tailles ainsi que les nombres se rapportant à la fréquence cumulée et au pourcentage cumulé.
Essayez de trouver la médiane simplement en observant le diagramme. La médiane est le point où l’axe x (la taille) croise le point milieu (25) de l’axe y (la fréquence cumulée). Vous constaterez que la médiane est environ 164 cm. Si vous faites un calcul mathématique, vous constaterez que la valeur réelle se situe à 163,9 cm. Voici comment :
Les diagrammes à tiges et à feuilles ordonnés simplifient le calcul de la médiane, particulièrement dans le cas où les fréquences cumulées ont déjà été calculées. Examinons les tailles des 50 filles de 10e année à l’aide d’un diagramme à tiges et à feuilles. (Voir le chapitre intitulé Organisation des données pour plus de renseignements sur la façon de créer ces tableaux.)
Tige* (cm) | Feuille | Fréquence cumulée |
---|---|---|
15(0) | 0 1 1 4 | 4 |
15(5) | 5 6 7 7 8 8 8 | 11 |
16(0) | 0 1 1 1 1 2 2 2 2 2 2 3 3 3 4 4 4 4 | 29 |
16(5) | 5 5 5 5 6 6 6 7 7 8 9 | 40 |
17(0) | 0 0 1 2 3 3 | 46 |
17(5) | 6 6 7 8 | 50 |
*Nota : Les tiges ont été divisées en intervalles plus petits. La tige 15(0) signifie que toutes les données s’inscrivent à l’intérieur de l’intervalle 150 à 154. La tige 15(5) signifie que les données se situent à l’intérieur de l’intervalle de 155 à 159.
Comme il y a 50 éléments de données, la valeur de la médiane correspond à la 25,5e observation.
Médiane = la valeur à la position (n +1) ÷ 2
= (50 + 1) ÷ 2
= 51 ÷ 2
= 25,5
La médiane se situe donc entre les 25e et 26e valeurs. Pour connaître quelles sont ces valeurs, comptez chaque valeur inscrite dans la colonne des feuilles jusqu’à ce que vous atteigniez les 25e et 26e valeurs. Ces valeurs se trouvent dans l’intervalle 16(0), c’est-à-dire l’intervalle 160–164. Les nombres dans la colonne des feuilles représentent les nombres qui s’inscrivent dans l’intervalle (p.ex. , 3 représente 163). La médiane se situe donc entre les centimètres 163 (25e valeur) et 164 (26e valeur). Il faut calculer la moyenne de ces deux valeurs pour trouver la médiane.
Moyenne = (valeur avant la médiane + valeur après la médiane) ÷ 2
= (25e valeur + 26e valeur) ÷ 2
= (163 + 164) ÷ 2
= 327 ÷ 2
= 163,5
Puisque la taille est une variable continue, la valeur 163,5 cm est considérée comme une médiane acceptable.
La médiane obtenue à partir du diagramme de fréquences cumulés (164 cm) n’est pas la même que celle obtenue à partir du calcul utilisé dans l’exemple 4 (163,9 cm) ou du diagramme à tiges et à feuilles (163,5 cm). Cela s’explique par le fait qu’on peut seulement avoir une approximation de la médiane, à moins que le diagramme ne puisse être dessiné précisément à l’aide de toute l’information utilisée.
Les calculs de l’exemple 4 ne sont que des approximations, puisque des données groupées ne vous permettent pas de savoir la répartition du 36 % des 50 filles qui s’inscrivent dans l’intervalle médian. Par conséquent, on pourrait supposer qu’elles ont été réparties uniformément dans l’intervalle, si bien que la médiane pourrait varier légèrement. Toutefois, un diagramme à tiges et à feuilles est la méthode la plus précise qui soit pour obtenir la médiane, puisqu’on utilise la totalité des valeurs réelles.
Il est possible que la moyenne et la médiane d’une distribution aient la même valeur. C’est toujours le cas si la distribution est symétrique comme dans une distribution normale. Les deux valeurs seront proches l’une de l’autre si la distribution est en gros symétrique.
Dans l’exemple des tailles de 50 filles de 10e année, la moyenne (164,5 cm) est très proche de la valeur de la médiane (163,5 cm), parce que la distribution est en gros symétrique (voir le diagramme à tiges et à feuilles fourni dans l’exemple ci-dessus).
Toutefois, un chiffre ou un nombre peut modifier la moyenne sans influencer la médiane.
Examinons les ensembles de données suivants qui représentent le nombre de buts comptés par 3 joueurs en 11 parties de baseball.
Noémie : 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3
Moyenne = 22 ÷ 11 = 2
Médiane = 2
Jeremy : 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 4
Moyenne = 23 ÷ 11 = 2,1
Médiane = 2
Alexandre : 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 14
Moyenne = 33 ÷ 11 = 3
Médiane = 2
Les trois ensembles de données ci-dessus sont identiques, à l’exception des dernières valeurs d’observation (3, 4 et 14).
La médiane ne varie pas, parce qu’elle ne dépend que de la valeur d’observation du milieu. Cependant, la moyenne varie beaucoup parce qu’elle dépend de la valeur moyenne de toutes les observations. Par conséquent, dans l’exemple ci-dessus, lorsque la valeur de la dernière observation augmente, la moyenne en fait autant.
Dans le troisième ensemble de données, la valeur de 14 varie beaucoup de toutes les autres valeurs. Quand une observation est très différente de toutes les autres d’un ensemble de données, on l’appelle une valeur aberrante. (Voir la section sur les diagrammes à tiges et à feuilles pour plus de renseignements sur les valeurs aberrantes.) La moyenne est la mesure de la tendance centrale la plus influencée par les valeurs aberrantes.
Il peut parfois y avoir des valeurs aberrantes en raison d'une erreur ou d'une déformation délibérée de l'information. Si tel est le cas, on devrait exclure les valeurs aberrantes de la mesure de tendance centrale. Dans d'autres cas, les valeurs aberrantes s’avèrent très utiles pour démontrer la mesure dans laquelle une valeur peut différer des autres.
Lorsqu’un article de journal renvoie aux prix des maisons, on y cite habituellement le prix médian. Pourquoi utilise-t-on cette mesure, plutôt que la moyenne?
Il y a beaucoup de maisons à prix modérés, mais certaines sont coûteuses et quelques-unes sont très chères. Le prix moyen pourrait être assez élevé, puisqu'il inclut les prix des maisons les plus coûteuses. La médiane donne donc une valeur plus exacte et réaliste des prix auxquels la plupart des gens sont confrontés.
En résumé, la médiane est le nombre au centre d'une distribution. La médiane est utile lorsqu'une distribution est déxaxée (ou déséquilibrée), parce que cette mesure n'est pas du tout influencée par les valeurs aberrantes.
Supposons que vous voulez savoir combien d’argent une famille pourrait dépenser pour l’achat d’une maison. Cela dépendrait du revenu total de cette famille.
Pour une famille de cinq personnes (deux parents qui travaillent contre rémunération et trois enfants ne réalisant aucun revenu), le revenu moyen de chaque membre de cette famille est le revenu total de cette dernière divisé par cinq (p.ex. , 60 000 $ ÷ 5 = 12 000 $). Toutefois, le revenu médian de la famille en question serait zéro, parce que plus de la moitié de ses membres ne gagnent rien. Dans certains cas, la moyenne peut donc être plus révélatrice que la médiane.
Quand vous voulez déterminer si un pays est riche, vous pourriez envisager d’utiliser la médiane comme mesure de tendance centrale, plutôt que la moyenne.
Le revenu familial moyen pourrait être assez élevé si les revenus étaient fortement concentrés dans peu ou très peu de familles à l'aise (en dépit du fait que la plupart des familles ne gagneraient essentiellement rien). Le revenu familial médian serait donc une mesure plus significative (la moitié des familles gagneraient moins que le revenu médian et au moins 50 % gagneraient autant ou plus que le revenu médian).
Supposons que vous postulez un emploi de comptable dans plusieurs grandes entreprises. Vous voulez vous faire une idée du montant d'argent que vous pourriez gagner en cinq ans en joignant les rangs de l'une ou l’autre des entreprises. Vous pourriez examiner les salaires des comptables de chaque entreprise cinq ans après leur engagement.
Un seul salaire très élevé pourrait accroître le salaire moyen, ce qui risquerait de ne pas refléter le salaire typique. D’un autre côté, la moitié des comptables gagnent le salaire médian ou moins et l’autre moitié, le salaire médian ou plus. La mesure de tendance centrale qui vous donnerait une meilleure idée d’un salaire typique serait donc la médiane.
En choisissant une mesure de tendance centrale qui vous est favorable, vous pouvez tromper des gens à l’aide de statistiques. En fait, cela se fait couramment.
Imaginez que vous êtes le propriétaire d’une boulangerie se spécialisant dans la fabrication et la vente de gâteaux de fête et d’énormes gâteaux de noces.
Il serait peut-être dans votre intérêt d’affirmer à vos clients que les prix de vos produits ont été réduits et à vos actionnaires que ces prix ont été augmentés. Supposons que l’an dernier vous avez vendu 100 000 gâteaux de fête 10 $ chacun et 1 000 gâteaux de noces 1 000 $ chacun. Cette année, vous avez vendu 100 000 gâteaux de fête 8 $ chacun et 1 000 gâteaux de noces 1 200 $ chacun.
Le prix moyen par gâteau vendu est le même pour les deux années. Vos recettes totales et le nombre d’articles vendus étaient aussi les mêmes. Vous pouvez faire en sorte que les données semblent indiquer des résultats contradictoires en choisissant la mesure de tendance centrale appropriée.
Il est important de souligner que vous n’êtes pas tenu de n’utiliser qu’une seule mesure de la tendance centrale. De façon à pouvoir obtenir le maximum d’information sur les données, vous pouvez utiliser à la fois la moyenne et la médiane.