Statistique Canada
Symbole du gouvernement du Canada

Liens de la barre de menu commune

Sélection d’un échantillon

Contenu archivé

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

L’échantillonnage permet aux statisticiens de tirer des conclusions au sujet d’un tout en y examinant une partie. Il nous permet d’estimer des caractéristiques d’une population en observant directement une partie de l’ensemble de la population. Les chercheurs ne s’intéressent pas à l’échantillon lui-même, mais à ce qu’il est possible d’apprendre à partir de l’enquête et à la façon dont on peut appliquer cette information à l’ensemble de la population.

L’enquête-échantillon doit être correctement définie et organisée. Si l’on pose les mauvaises questions aux mauvaises personnes, l’information que recevront les statisticiens ne leur sera pas utile lorsqu’ils l’appliqueront à l’ensemble de la population.

Voici les étapes à suivre pour sélectionner un échantillon et s’assurer qu’il atteindra ses buts dans le cadre des activités d’un bureau national de la statistique comme Statistique Canada.

Établir les objectifs de l’enquête

La première étape de la planification d’une enquête utile et efficace consiste à en préciser de façon aussi détaillée que possible les objectifs. L’enquête ne produira probablement pas de résultats utilisables sans ces objectifs. Clarifier les objectifs de l’enquête est essentiel à son succès définitif. Il faudrait à ce stade identifier les utilisateurs initiaux et définir les utilisations initiales des données.

On devrait alors évaluer les avantages et les inconvénients d’un recensement par rapport à une enquête-échantillon ou à l’utilisation de dossiers administratifs et déterminer la méthode la plus appropriée à employer. (Nous supposerons pour l’instant qu’une enquête-échantillon est le meilleur moyen de procéder afin d’obtenir l’information dont nous avons besoin. Cette hypothèse vaudra également pendant le reste des étapes de la sélection de l’échantillon, même si un grand nombre des étapes mentionnées s’appliqueront également aux autres méthodes.)

Définir la population cible

La population cible est la population totale pour laquelle on a besoin de l’information. Par exemple, si vous devez mener une enquête sur les types de voitures les plus populaires en Saskatchewan, la population cible serait alors composée de toutes les voitures de cette province. Il faut décrire les unités qui composent la population sous forme de caractéristiques les identifiant clairement. Plus précisément, les caractéristiques suivantes définissent la population cible :

  • La nature des données dont on a besoin : sur des personnes, des hôpitaux, des écoles, etc.
  • L’emplacement géographique : il faut déterminer les limites géographiques qui circonscrivent la population et le degré de détail géographique dont on a besoin pour l’estimation découlant de l’enquête (par province, par ville, etc.).
  • La période de référence : la période de temps visée par l’enquête.
  • D’autres caractéristiques, comme des caractéristiques sociodémographiques (l’intérêt vis-à-vis d’un groupe d’âge particulier, par exemple) ou le type d’industrie.

Déterminer les données à recueillir

Il faut établir les exigences de l’enquête en matière de données. On doit aussi déterminer la terminologie et les définitions nécessaires relatives aux données pour s’assurer que les exigences de l’enquête sont justifiées sur le plan opérationnel.

Fixer le degré de précision

Comme mentionné dans la section sur l’erreur d’échantillonnage, il y a un degré d’incertitude associé aux estimations établies à partir d’un échantillon. Par exemple, si vous essayez d’estimer la distance moyenne entre la maison et l’école des élèves de votre classe, qui en compte 25, à partir d’un échantillon de 5 personnes, votre estimation dépendra de l’identité des 5 élèves échantillonnés. Si les 5 élèves échantillonnés vivent tous près de l’école, les résultats ne pourront représenter la classe avec exactitude. Cette variation d’un échantillon à l’autre est ce qui cause l’erreur d’échantillonnage. Toutefois, les statisticiens peuvent estimer l’erreur d’échantillonnage associée à un plan de sondage particulier et essayer de la réduire le plus possible.

Lorsqu’on conçoit une enquête, il faut établir le degré acceptable d’incertitude des estimations découlant de l’enquête. Ce degré dépend de l’utilisation finale des résultats et de l’importance du budget global de l’enquête. Plus le budget de l’enquête sera élevé, plus on disposera de ressources et, par conséquent, moins le risque d’erreur sera élevé. De plus, si le résultat final de l’enquête consistait à servir une fin particulière, le degré acceptable d’incertitude serait alors moins élevé qu’un résultat final qui consisterait simplement à chercher des tendances générales.

La taille de l’échantillon déterminera aussi le degré d’incertitude. L’accroissement de la taille de l’échantillon entraînera une diminution de l’erreur d’échantillonnage. (Si vous échantillonnez 24 des 25 élèves de votre classe, il n’y aura pas autant de variations d’un échantillon à un autre qu’il y en aurait si vous n’échantillonniez que 5 élèves sur les 25 échantillons possibles.)

Le plan d’échantillonnage

Une fois les objectifs, les lignes directrices et les définitions élaborées, le statisticien peut travailler au plan de sondage, qui comporte trois parties :

  • Le plan d’échantillonnage : la façon dont on prélèvera l’échantillon.
  • Les techniques d’estimation : la façon dont on appliquera les résultats établis à partir de l’échantillon à l’ensemble de la population.
  • Les mesures de la précision : la façon dont on mesurera l’erreur d’échantillonnage.

Il est question des techniques d’estimation et des mesures de la précision dans une section ultérieure. Nous étudierons, pour le moment, le plan d’échantillonnage. Les étapes suivantes amènent à définir complètement le plan d’échantillonnage :

  1. Déterminer ce que sera la population observée (p. ex., des élèves, des hommes de 20 à 35 ans, des nouveau-nés, etc.).
  2. Choisir le délai d’exécution de l’enquête le plus approprié.
  3. Définir les unités d’enquête.
  4. Établir la taille de l’échantillon (p. ex., un échantillon de 100 pour une population de 1 000).
  5. Sélectionner une méthode d’échantillonnage.

La population observée

On doit définir la population cible tôt durant le processus de conception de l’enquête. Il s’agit de la population pour laquelle on a besoin d’information. Il faut toutefois en exclure certains membres en raison de contraintes opérationnelles : le coût élevé de la collecte des données dans certaines régions éloignées, la difficulté d’identifier des composantes de la population cible et de les contacter, etc. Étant donné qu’il serait trop difficile, par exemple, de localiser et d’étudier chaque voiture appartenant à chacun des résidents de la Saskatchewan, on pourrait plutôt mener uniquement une enquête sur la population des principales villes et localités de cette province. Lorsque certains des membres de la population cible sont exclus d’une enquête, nous appelons la population qui est prise en compte la population observée. La population cible est la population que nous voulons observer, tandis que la population observée est la population que nous pouvons observer.

Ce processus a pour but de faire en sorte que la population observée se rapproche autant que possible de la population cible. Il est également très important d’informer les utilisateurs des données des différences entre les deux populations, étant donné que les résultats de l’enquête ne s’appliqueront qu’à la population observée.

Par exemple, la population cible d’une enquête pourrait se composer de tous les Canadiens de 15 ans et plus (à une date de référence particulière), tandis que la population observée pourrait exclure les résidents du Yukon, du Nunavut et des Territoires du Nord-Ouest, les personnes vivant sur des réserves autochtones, les membres à temps plein des Forces armées canadiennes et les gens en établissement. Ces Canadiens pourraient être exclus pour diverses raisons : parce que sonder des gens dans les territoires pourrait s’avérer difficile et coûteux, parce que le personnel militaire risque de ne pas être disponible à des fins d’enquête s’il est en mission, etc. Si l’on utilise cet exemple, environ 2 % de la population cible serait exclue de la population observée.

La base de sondage

La base de sondage est l’outil qu’on utilise pour avoir accès à la population. Il existe deux types de bases de sondage : les nomenclatures et les bases aléatoires. Une nomenclature est simplement une liste de noms et d’adresses qui donnent directement accès à des « unités » (comme une liste d’hôpitaux, une liste de restaurants et une liste d’étudiants d’une université). Les bases aléatoires sont des listes de régions géographiques qui donnent indirectement accès à des unités (comme les quartiers d’une localité). On appelle ce type d’accès un accès indirect, parce qu’il faut premièrement sélectionner une liste de régions géographiques, puis trouver le moyen d’avoir accès aux unités à l’intérieur de chaque région sélectionnée.

Supposez, par exemple, que vous êtes en train d’étudier une ville du Québec située en milieu rural pour déterminer quel pourcentage de ses résidents sont des exploitants agricoles. Si l’on vous fournissait une base aléatoire, vous pourriez alors localiser les routes où rendre visite à des gens, mais vous devriez quand même trouver les noms et les adresses des personnes domiciliées sur chacune de ces routes.

Lorsqu’il n’existe aucune base de sondage unique qui soit appropriée, on peut utiliser plusieurs bases de sondage. Nous traiterons plus loin de certaines techniques d’échantillonnage faisant appel aux deux types de bases de sondage.

Une bonne base de sondage devrait être complète et à jour; aucun membre de la population observée ne devrait en être exclu ni y être compté deux fois (y être représenté plus d’une fois) et aucune unité ne faisant pas partie de la population (comme une personne décédée) ne devrait y être inscrite. Le choix de la base de sondage aura des répercussions sur la sélection de la population observée. Par exemple, si on utilise une liste de numéros de téléphone pour sélectionner un échantillon de ménages, tous les ménages n’ayant pas le téléphone seront alors exclus de la population observée.

Les unités d’enquête

Il existe trois types d’unités qu’il faut identifier correctement afin d’éviter des problèmes durant les stades de la sélection, de la collecte des données et de l’analyse des données. Ce sont :

  • L’unité d’échantillonnage, qui fait partie de la base de sondage et qui peut donc être sélectionnée.
  • L’unité déclarante, qui fournit l’information qu’exige l’enquête.
  • L’unité de référence ou l’unité d’analyse – c’est-à-dire l’unité au sujet de laquelle de l’information est fournie – qui sert à analyser les résultats de l’enquête.

Par exemple, dans le cadre d’une enquête sur les nouveau-nés à Edmonton, l’unité d’échantillonnage pourrait être un ménage, l’unité déclarante, l’un des parents ou le tuteur légal, et l’unité de référence, le bébé.

Les unités d’échantillonnage peuvent différer suivant la base de sondage utilisée. C’est pourquoi on définit la population observée, la base de sondage et les unités d’enquête les unes par rapport aux autres.

La taille de l’échantillon

Le degré de précision nécessaire pour les estimations découlant de l’enquête aura des répercussions sur la taille de l’échantillon. Il n’est toutefois pas aussi facile de déterminer la taille de l’échantillon qu’on peut le penser. En règle générale, la taille réelle de l’échantillon d’une enquête est un compromis entre le degré de précision à atteindre, le budget de l’enquête et toutes les autres contraintes opérationnelles, comme les fonds et le temps disponibles. Pour atteindre un certain degré de précision, il faudra que la taille de l’échantillon repose, entre autres choses, sur les facteurs suivants :

  • La variabilité des caractéristiques qu’on sera en train d’observer. Si toutes les personnes membres d’une population gagnaient le même salaire, un échantillon d’une seule personne serait alors tout ce dont vous auriez besoin pour estimer le salaire moyen de la population en question. Si les salaires de ses membres étaient très différents, vous auriez alors besoin d’un échantillon plus grand pour en produire une estimation fiable.
  • La taille de la population : Dans une certaine mesure, plus la population est importante, plus on a besoin d'un échantillon de plus grande taille. Cependant, une fois qu'on a atteint un certain niveau, une augmentation de la population n'a plus d'influence sur la taille de l'échantillon. La taille de l'échantillon nécessaire pour atteindre un certain degré de précision, par exemple, sera à peu près la même pour une population d'un million que pour une population deux fois plus importante.
  • Les méthodes d'échantillonnage et d'estimation : Toutes les méthodes d'échantillonnage et d'estimation ne sont pas aussi efficaces les unes que les autres. Vous aurez besoin d'un échantillon plus grand si votre méthode d'échantillonnage n'est pas la technique la plus efficace. Toutefois, en raison de contraintes opérationnelles et de la non-disponibilité d'une base de sondage suffisante, il se peut qu'on n’utilise pas toujours la technique la plus efficace.

La méthode d’échantillonnage

Il existe deux types de méthodes d’échantillonnage : L’échantillonnage probabiliste et l’échantillonnage non probabiliste. La différence entre les deux tient au fait que dans le cas de l’échantillonnage probabiliste chaque unité a une « chance » d’être sélectionnée et que cette chance peut être quantifiée, ce qui n’est pas vrai pour l’échantillonnage non probabiliste; dans ce cas, chaque unité incluse à l’intérieur d’une population n’a pas une chance égale d’être sélectionnée. La section suivante décrit les caractéristiques des deux types d’échantillonnages et fournit des détails sur certaines des méthodes reliées à chaque type.