5 Visualisation des données
5.7 Histogramme
Début du texte
L'histogramme est un outil fréquemment utilisé pour résumer des données discrètes ou continues qui sont présentées par intervalles de valeurs. Il est souvent employé pour montrer les caractéristiques principales de la distribution des données de façon pratique. Il est utile pour résumer de grands ensembles de données (plus de 100 observations). Il peut également faciliter la détection d'observations inhabituelles (valeurs aberrantes) ou les intervalles sans point de donnée.
Un histogramme sépare les valeurs possibles des données en classes ou groupes. Pour chaque groupe, on construit un rectangle dont la base correspond aux valeurs de ce groupe et la hauteur correspond au nombre d'observations dans le groupe. L’histogramme a une apparence semblable au graphique à barres verticales, mais il n'y a pas d'écart entre les barres. En règle générale, l'histogramme possède des barres d'une largeur égale. Le graphique 5.7.1 est un exemple d'histogramme qui montre la distribution du revenu, une variable continue, parmi les employés d’une compagnie.
Tableau de données du graphique 5.7.1
Salaire (en milliers de $) | Nombre d'employés |
---|---|
0-10 | 50 |
11-20 | 300 |
21-30 | 250 |
31-40 | 400 |
41-50 | 550 |
51-60 | 433 |
61-70 | 266 |
71-80 | 350 |
81-90 | 100 |
91+ | 20 |
Le tableau suivant présente les différences entre un histogramme et un graphique à barres verticales.
Termes de comparaison | Graphique à barres | Histogramme |
---|---|---|
Utilisation | Pour comparer différentes catégories. | Pour afficher la distribution d'une variable. |
Type de variable | Variables catégoriques | Variables numériques |
Apparence | La fréquence de chaque catégorie est illustrée par une barre distincte. | L’étendue des valeurs est divisée en une série d'intervalles qui ne se chevauchent pas. Les points de données sont regroupés et le nombre de points dans chaque intervalle correspond à une barre distincte. |
Espace entre les barres | Il peut y avoir de l'espace entre les barres. | Il n’y a pas d'espace entre les barres. |
Réorganisation des barres | L’ordre peut être modifié pour les variables nominales. | Impossible de modifier l’ordre des intervalles. |
- Date de modification :