Inférence statistique avec des échantillons d’enquête non probabiliste
Section 1. Introduction

Le domaine de l’échantillonnage se distingue des autres domaines de la statistique en raison d’un certain nombre de caractéristiques uniques. La population cible est constituée d’un nombre fini d’unités et les paramètres de population peuvent être déterminés sans erreur, du moins conceptuellement, en menant un recensement. Les contraintes opérationnelles et l’avantage sur le plan administratif pour la collecte des données rendent nécessaire d’envisager la stratification, la catégorisation des résultats et la sélection à probabilités inégales. Depuis le document précurseur de Neyman (1934), les méthodes d’échantillonnage probabiliste sont devenues l’un des outils de collecte de données primaires pour les statistiques officielles et les chercheurs dans les domaines des sciences de la santé, des études sociales et économiques, des affaires et de la commercialisation, des stocks de ressources agricoles et naturelles, et autres domaines. Des échantillons d’enquête probabilistes ont également été utilisés pour effectuer des études analytiques comportant des modèles et des paramètres de modèles; voir, par exemple, Binder (1983), Godambe et Thompson (1986), Thompson (1997), Rao et Molina (2015), entre autres. Des échantillons d’enquête probabilistes et une inférence fondée sur le plan ont constitué une mesure couronnée de succès dans le cadre des sciences statistiques au cours des 80 dernières années.

Toutefois, au cours des dernières années, « on a observé un vent de changement et on considère de plus en plus d’autres sources de données » (Beaumont, 2020). Le succès des échantillons d’enquête probabilistes a mené à des plans d’études ambitieux, à de longs questionnaires compliqués et à un fardeau accru sur les répondants. Les taux de réponse ont diminué et le coût de la collecte des données a grimpé en flèche au fil des ans. Compte tenu des progrès de nouvelles technologies et de l’explosion de l’information sur Internet, il existe également un fort désir d’accéder à des statistiques en temps réel. Statistique Canada a lancé les initiatives dites de modernisation appelée « Aller au-delà de l’approche fondée sur les données d’enquête pour adopter de nouvelles méthodes et intégrer des données provenant de diverses sources existantes ».

Les échantillons non probabilistes représentent l’une de ces sources des données qui ont gagné en popularité au cours des dernières années. Les échantillons non probabilistes ne sont pas nouveaux dans le domaine de l’échantillonnage. Ils ont été utilisés depuis les débuts de la réalisation d’enquêtes. Par exemple, les enquêtes par quotas ont donné des échantillons non probabilistes et la méthode est largement utilisée et peut réussir dans certaines conditions; voir la section 5 pour consulter d’autres analyses. Les échantillons non probabilistes n’ont jamais pris un véritable élan dans le passé dans la pratique des enquêtes en raison de l’absence d’un cadre de travail théorique mature pour l’analyse des données. Néanmoins, il existe des données accessibles qui sont moins chères et plus rapides à obtenir et qui sont devenues courantes pour la recherche en ligne. Les entreprises commerciales d’enquête créent et tiennent à jour une longue liste de personnes, appelées « panels volontaires », qui ont accepté que l’on communique avec elles pour participer à des enquêtes comme volontaires ou grâce à des incitatifs. Les mécanismes précis d’inclusion des personnes dans le panel sont habituellement inconnus, se traduisant par des échantillons d’enquête non probabilistes fondés sur des panels.

Le principal problème des échantillons non probabilistes est qu’il s’agit d’échantillons biaisés et que ceux-ci ne sont pas représentatifs de la population cible. On peut soutenir que, outre les échantillons à unités indépendantes et identiquement distribuées, la plupart des échantillons sont biaisés, et même les échantillons d’enquête probabilistes le sont. Les probabilités d’inclusion connues du plan d’enquête sont la raison pour laquelle nous ne nous inquiétons pas de la nature biaisée des échantillons d’enquête probabilistes, car elles mènent à des méthodes d’estimation valides par l’entremise de procédures appropriées de pondération. Le principal enjeu véritable des échantillons non probabilistes est donc l’aspect inconnu de l’inclusion dans un échantillon ou des mécanismes de participation. Il ressortira clairement des analyses présentées à la section 4 que la nature biaisée des échantillons non probabilistes ne peut être corrigée au moyen de l’échantillon lui-même. Cela nécessite des renseignements auxiliaires sur la population cible.

Le présent article offre un examen critique et quelques discussions approfondies sur des questions théoriques et pratiques à l’aide d’une analyse d’échantillons non probabilistes. La section 2 brosse un tableau du contexte général, des hypothèses communément utilisées ainsi que des cadres inférentiels employés dans les procédures statistiques traitées dans l’article. La section 3 présente une approche de prédiction des échantillons non probabilistes fondée sur un modèle. La section 4 aborde l’estimation de scores de propension et la construction d’estimateurs fondés sur les scores de propension. La section 5 illustre les liens entre les estimateurs pondérés de probabilité inverse et les enquêtes par quotas avec des extensions à la poststratification. La section 6 met l’accent sur les techniques ainsi que sur les enjeux liés à l’estimation de la variance. La section 7 aborde l’importante question touchant la manière de contrôler et de vérifier les hypothèses requises dans la pratique. Quelques conclusions sont présentées à la section 8.


Date de modification :