3.2 Échantillonnage
3.2.3 Échantillonnage non probabiliste
Début du texte
L'échantillonnage non probabiliste est une méthode qui consiste à sélectionner des unités dans une population en utilisant une méthode subjective (c'est-à-dire non aléatoire). Comme l'échantillonnage non probabiliste ne nécessite pas de base de sondage complète, c'est un moyen rapide, facile et peu coûteux d'obtenir des données. Cependant, pour pouvoir tirer des conclusions sur la population à partir de l'échantillon, il faut supposer que l'échantillon est représentatif de la population. Il s'agit souvent d'une hypothèse risquée dans le cas d'un échantillonnage non probabiliste, car il est difficile d'évaluer si l'hypothèse est valable ou non. De plus, comme les éléments sont choisis arbitrairement, il n'y a aucun moyen d'estimer la probabilité qu'un élément soit inclus dans l'échantillon. De même, rien ne garantit que chaque élément a une chance d'être inclus, ce qui rend impossible l'estimation de la variabilité de l'échantillonnage ou l'identification d'un éventuel biais.
En général, les agences de statistiques officielles du monde entier ont utilisé l'échantillonnage probabiliste comme outil privilégié pour répondre aux besoins d'information sur une population d'intérêt. Ces dernières années, cependant, des recherches et des études ont été menées sur la manière d'appliquer l'échantillonnage non probabiliste aux statistiques officielles. L'utilisation d'autres sources de données est de plus en plus explorée. Cinq raisons principales expliquent cette tendance :
- le déclin des taux de réponse des enquêtes probabilistes;
- le coût élevé de la collecte de données;
- la charge accrue pour les répondants;
- le désir d'accéder à des statistiques en temps réel, et
- l'essor des sources de données non probabilistes telles que les enquêtes en ligne et les médias sociaux.
Certains évoquent la possibilité d’une évolution dans le paradigme et l’approche traditionnelle des statistiques. Toutefois, les données provenant de sources non probabilistes présentent quelques difficultés en ce qui a trait à la qualité des données, notamment la présence potentielle de biais de participation et de sélection. Par conséquent, les données collectées à l'aide d'un échantillonnage non probabiliste doivent être utilisées avec une prudence accrue.
Les méthodes d'échantillonnage non probabilistes couramment utilisées sont les suivantes.
Échantillonnage de commodité
Les unités sont sélectionnées de manière arbitraire, avec peu ou pas de planification. L'échantillonnage de commodité présume que les unités de la population sont toutes semblables, et que n'importe quelle unité peut être choisie pour l'échantillon. Un exemple d'échantillonnage de commodité est l’enquête de type vox pop, où l'enquêteur sélectionne une personne qu’il croise dans la rue. Malheureusement, à moins que les unités de population ne soient vraiment similaires, la sélection est sujette aux biais de l'enquêteur et de quiconque passe par là au moment de l'échantillonnage.
Échantillonnage à participation volontaire
Dans cette méthode, les répondants sont uniquement des volontaires. En général, les volontaires doivent faire l’objet d’un examen pour obtenir un ensemble de caractéristiques adaptées aux objectifs de l'enquête (par exemple, des personnes atteintes d'une maladie particulière). Cette méthode peut être sujette à d'importants biais de sélection, mais elle est parfois nécessaire. Par exemple, pour des raisons éthiques, il peut être nécessaire de solliciter des volontaires présentant des conditions médicales particulières pour certaines expériences médicales.
Voici un autre exemple d’échantillonnage à participation volontaire : au cours d’une émission radio ou télédiffusée, une question fait l’objet d’une discussion et les citoyens à l’écoute sont invités à téléphoner pour exprimer leurs opinions. Seules les personnes qui se sentent suffisamment concernées par le sujet, dans un sens ou dans l'autre, ont tendance à répondre. La majorité silencieuse ne répond généralement pas, ce qui entraîne un biais de sélection important. L'échantillonnage à participation volontaire est souvent utilisé pour sélectionner des individus pour des groupes de discussion ou des entrevues approfondies (c'est-à-dire une mise à l’essai qualitative, où l'on ne tente pas de généraliser à la population complète).
Échantillonnage au jugé
Avec cette méthode, l'échantillonnage est fait en tenant compte des idées préalables sur la composition et le comportement de la population. Un expert ayant une connaissance de la population décide quelles unités de la population doivent être choisies. En d'autres termes, l'expert sélectionne délibérément ce qu’il considère comme un échantillon représentatif. L'échantillonnage au jugé est soumis aux biais du chercheur et est peut-être encore plus biaisé que l'échantillonnage de commodité.
Puisque toutes les idées préconçues du chercheur se reflètent dans l'échantillon, des biais importants peuvent être intégrés si ces idées préconçues sont inexactes. Cependant, il peut être utile dans les études exploratoires, par exemple pour sélectionner des membres de groupes de discussion ou pour mener des entrevues approfondies afin de tester des aspects spécifiques d'un questionnaire.
Échantillonnage par quotas
Il s'agit de l'une des formes les plus courantes d'échantillonnage non probabiliste. L'échantillonnage est effectué jusqu'à ce qu'un nombre déterminé d'unités (quotas) pour diverses sous-populations soient sélectionnées. L'échantillonnage par quotas est un moyen de satisfaire les objectifs de taille d'échantillon pour les sous-populations.
Les quotas peuvent être basés sur les proportions de la population. Par exemple, si la population compte 100 hommes et 100 femmes, et il faut tirer un échantillon de 20 personnes, 10 hommes et 10 femmes peuvent être interviewés. L'échantillonnage par quotas peut être considéré comme préférable à d'autres formes d'échantillonnage non probabiliste (par exemple, l'échantillonnage au jugé), car il oblige à inclure des membres de sous-populations différentes.
L'échantillonnage par quotas ressemble quelque peu à l'échantillonnage stratifié, qui est un échantillonnage probabiliste, en ce sens que des unités similaires sont regroupées. Cependant, il diffère par la façon dont les unités sont sélectionnées. Dans l'échantillonnage probabiliste, les unités sont sélectionnées de manière aléatoire, tandis que dans l'échantillonnage par quotas, une méthode non aléatoire est utilisée. Il revient généralement à l'enquêteur de décider qui est sélectionné. Les unités contactées qui ne sont pas disposées à participer sont simplement remplacées par d’autres qui le sont, ce qui permet d'ignorer le biais de non-réponse. Les études de marché utilisent souvent l'échantillonnage par quotas (en particulier pour les enquêtes téléphoniques) au lieu de l'échantillonnage stratifié pour faire enquête auprès de citoyens ayant des profils socio-économiques particuliers. En effet, comparé à l'échantillonnage stratifié, l'échantillonnage par quotas est relativement peu coûteux, facile à administrer et présente la propriété souhaitable de satisfaire les proportions de la population. Cependant, il dissimule un biais de sélection potentiellement important.
Comme pour tous les autres plans d'échantillonnage non probabilistes, pour formuler des inférences sur la population, il faut présumer que les personnes sélectionnées sont similaires à celles qui ne le sont pas. Des hypothèses aussi fortes sont rarement valables.
Échantillonnage boule de neige ou de réseaux
Supposons qu’un chercheur souhaite trouver des individus possédant un trait rare dans la population, qu'il connaisse déjà l'existence de certains d’entre eux et sache comment les contacter. Une approche consiste à contacter ces personnes et à leur demander simplement si elles connaissent quelqu'un comme elles, puis à contacter ces personnes, etc. L'échantillon se développe comme une boule de neige dévalant une colline pour inclure, on l'espère, pratiquement toutes les personnes ayant cette caractéristique. L'échantillonnage boule de neige est utile pour les populations rares ou difficiles à atteindre, comme les personnes handicapées, les sans-abri, les toxicomanes ou d'autres personnes qui n'appartiennent pas à un groupe organisé comme les musiciens, les peintres ou les poètes, qui ne sont pas facilement identifiables sur une base de sondage. Cependant, certains individus ou sous-groupes peuvent n'avoir aucune chance d'être sélectionnés. Afin de pouvoir généraliser la conclusion à l'ensemble de la population, certaines hypothèses, qui ne sont généralement pas satisfaites, sont nécessaires.
Approche participative
L’approche participative a été définie de manière légèrement différente par les chercheurs de différents domaines. Malgré la multiplicité des définitions de l’approche participative, une constante est la communication d’un problème au public, suivi d’un appel ouvert à des contributions pour aider à résoudre le problème. Les membres du public soumettent des solutions qui appartiennent ensuite à l'entité (par exemple, des individus, des entreprises ou des organisations) qui a initialement soumis le problème. L’approche participative consiste à canaliser le désir des experts de résoudre un problème, puis à partager librement la réponse avec tout le monde.
Dans le cadre de la modernisation de Statistique Canada, l’approche participative est devenue un moyen novateur de recueillir des renseignements précieux à des fins statistiques dans certains contextes. En utilisant l’approche participative comme méthode de collecte, les enquêtes peuvent être exécutées rapidement avec un coût et un fardeau de réponse réduits. Afin de mieux comprendre les défis associés à cette approche et d’explorer la qualité des résultats, des méthodes sont développées pour comparer et valider les données à partir d'autres sources de données complémentaires. Quelques exemples sont présentés ci-dessous.
- Le projet pilote OpenStreetMap (OSM), qui s'est achevé en mars 2018, a permis de recueillir des informations géographiques grâce à l’approche participative en cartographiant les empreintes de bâtiments dans les régions d'Ottawa (Ontario) et de Gatineau (Québec). Le réseau et l'expérience de ce projet pilote ont contribué au lancement de l'initiative Bâtir le Canada 2020 (BC2020), qui vise à cartographier toutes les empreintes de bâtiments du Canada sur OSM d'ici 2020.
- Pendant la pandémie de COVID-19, Statistique Canada a élaboré une série d'initiatives visant à générer des données et des analyses rapidement et efficacement par le biais de l’approche participative afin d’aider à combler les lacunes en matière de données sur l'impact économique et social de la pandémie sur les Canadiens. Par exemple, l’enquête, Répercussions de la COVID-19 sur les Canadiens, a recueilli des données du 3 au 9 avril 2020. Près de 200 000 personnes vivant au Canada ont répondu volontairement à l'enquête, qui portait sur les comportements et les attitudes liés à COVID-19. Une série de résultats ont ensuite été publiés au cours des semaines suivantes.
Panel web
Un panel web (ou panel en ligne ou internet) peut être défini comme un panel de personnes prêtes à répondre à des questionnaires en ligne. Il contient un échantillon de répondants potentiels qui ont déclaré vouloir coopérer pour une future collecte de données s'ils sont sélectionnés. Une enquête par panel web est une enquête utilisant des échantillons provenant de panels web.
Les panels web sont en quelque sorte des bases de sondage pour les enquêtes par panel web. Toutes les personnes faisant partie des panels doivent avoir une adresse courriel à jour. Le recrutement pour les panels web peut se faire de différentes manières. Les répondants peuvent être recrutés par des canaux hors ligne : téléphone, publicités télévisées, publicités radiophoniques, publicités dans les journaux et les magazines, lettres adressées, affiches extérieures, registres de clients, etc. Les répondants peuvent également provenir de canaux en ligne : courriers électroniques, sites web, bannières, sites communautaires, programmes de membres, etc. Souvent, de nombreux canaux sont utilisés afin d'obtenir la diversité nécessaire. Après le recrutement, une enquête de profil est menée afin de recueillir des informations sur les nouveaux participants au panel. Le recrutement peut se faire par le biais de panels probabilistes ou d’autorecrutement. En pratique, la distinction entre les deux peut ne pas être très importante si le taux de non-réponse est très élevé pour les panels probabilistes. Parfois, des incitations, telles que des cartes-cadeaux ou des souvenirs, sont utilisées pour attirer les gens et augmenter le taux de réponse. Les panels web sont souvent utilisés pour des recherches en marketing ou des études pilotes.
Pendant la pandémie de COVID-19, Statistique Canada a mis au point une nouvelle enquête par panel web, la Série d'enquêtes sur les perspectives canadiennes (SEPC), afin d'obtenir des renseignements en temps opportun sur la façon dont les Canadiens font face à la pandémie. Plus de 4 600 personnes dans les 10 provinces ont répondu à cette enquête entre le 29 mars et le 3 avril. Contrairement à la majorité des panels web, la SEPC est un panel probabiliste basé sur l’échantillon de l'Enquête sur la population active (EPA), certains répondants ayant accepté de répondre à de courts questionnaires en ligne à la suite de leur participation à l’EPA. La SEPC permet à Statistique Canada de recueillir des renseignements importants auprès des Canadiens de façon plus efficace, plus rapide et à moindre coût, comparativement aux méthodes d'enquête traditionnelles.
Avantages et inconvénients de l'échantillonnage non probabiliste
Avantages
- Rapide et pratique
En règle générale, les échantillons non probabilistes peuvent être constitués rapidement, ce qui permet de lancer, exécuter et terminer l’enquête dans des délais plus courts. - Abordable
La réalisation d'une telle enquête ne prend généralement que quelques heures à un intervieweur. De plus, comme les échantillons non probabilistes ne sont généralement pas dispersés géographiquement, les frais de déplacement des enquêteurs sont donc faibles. Dans le cas des panels web ou de l’approche participative, aucun intervieweur n'est nécessaire et le suivi des non-répondants est non requis ou moins exigeant. - Réduit le fardeau de réponse
Dans le cas de l’échantillonnage à participation volontaire et de l’approche participative, les répondants se portent eux-mêmes volontaires pour participer aux enquêtes sans avoir été sollicités personnellement.
Inconvénients
- Biais de sélection
Afin de faire des inférences sur la population, il est nécessaire de faire des hypothèses fortes sur la similarité entre l'échantillon et la population, même si les répondants sont autosélectionnés. En raison du biais de sélection présent dans tous les échantillons non probabilistes, il est souvent dangereux de faire ces hypothèses. Lorsqu'il s'agit de généraliser à l'ensemble de la population, il est préférable de recourir à un échantillonnage probabiliste. - Biais de non-couverture (sous-couverture)
Comme certaines unités de la population peuvent n’avoir aucune chance d’être incluses dans l'échantillon, il en résulte un biais de non-couverture. Par exemple, les personnes qui n’ont pas internet à la maison ne seront sans doute jamais sélectionnées pour un panel web et elles peuvent être différentes de celles qui ont internet. - Difficulté d'évaluation de la qualité
Il est impossible de déterminer la probabilité qu'une unité de la population soit sélectionnée pour l'échantillon, de sorte que des estimations fiables et des estimations de l'erreur d'échantillonnage ne peuvent être calculées.
- Date de modification :