Les enquêtes probabilistes sont-elles vouées à disparaître pour la production de statistiques officielles ?
Section 1. Introduction

Table des matières

En 1934, Jerzy Neyman posait les fondements de la théorie des enquêtes probabilistes et de son approche d’inférence fondée sur le plan de sondage avec la parution d’un article publié dans la revue Journal of the Royal Statistical Society. L’article de Neyman (1934) suscita l’intérêt de plusieurs statisticiens de l’époque et la théorie fut développée plus en profondeur dans les années subséquentes. Encore aujourd’hui, on trouve de nombreux articles sur ce sujet dans les revues de statistique. On réfère le lecteur à Rao (2005) pour une excellente revue de différents développements de la théorie des enquêtes probabilistes au cours du vingtième siècle (voir aussi Bethlehem, 2009; Rao et Fuller, 2017; et Kalton, 2019). De nos jours, les agences nationales de statistique, comme Statistique Canada et l’Institut National de la Statistique et des Études Économiques (INSEE) en France, ont la plupart du temps recours à des enquêtes probabilistes pour obtenir l’information désirée sur une population d’intérêt.

La popularité des enquêtes probabilistes pour la production de statistiques officielles découle en grande partie du caractère non paramétrique de l’approche d’inférence élaborée par Neyman (1934). En d’autres mots, les enquêtes probabilistes permettent de faire des inférences valides sur une population sans avoir recours à des hypothèses de modèle. C’est une propriété attrayante, voire même indispensable selon Deville (1991), pour les agences nationales de statistique qui produisent des statistiques officielles. Ces agences ont d’ailleurs été historiquement réticentes à la prise inutile de risques inhérente aux approches dépendant de la validité d’hypothèses de modèle, surtout lorsque celles-ci sont difficilement vérifiables.

Les estimations issues d’enquêtes probabilistes peuvent cependant s’avérer inefficaces, au point même d’être inutilisables, particulièrement lorsque la taille d’échantillon est petite (voir, par exemple, Rao et Molina, 2015). De plus, elles reposent sur l’hypothèse que les erreurs non dues à l’échantillonnage, telles que les erreurs de mesure, de couverture ou de non-réponse, sont négligeables. Afin de minimiser ces erreurs, les agences nationales de statistique mettent souvent beaucoup de ressources en oeuvre. Par exemple, les questionnaires sont testés pour s’assurer qu’ils sont bien compris par les répondants, les données de l’enquête sont validées au moyen de différentes règles de vérification, les répondants sont recontactés au besoin pour vérifier les données recueillies, un suivi des non-répondants est effectué pour minimiser l’impact de la non-réponse sur les estimations, etc. Malgré tous ces efforts, des erreurs non dues à l’échantillonnage subsistent en pratique. Il existe bien sûr des adaptations de la théorie pour tenir compte de ces erreurs. Ces adaptations sont nécessairement accompagnées par l’introduction d’hypothèses de modèle et ainsi par le risque de biais résultant de l’inadéquation des hypothèses. Les enquêtes probabilistes ne sont donc pas une panacée mais on reconnaît généralement qu’elles représentent une source fiable d’informations sur une population sauf dans les cas où les erreurs non dues à l’échantillonnage deviennent prépondérantes. Brick (2011) pousse l’argument plus loin et défend l’idée qu’une enquête probabiliste avec un faible taux de réponse fournit des estimations généralement moins biaisées, si elle est bien conçue, qu’une enquête non probabiliste menée auprès de volontaires. Dutwin and Buskirk (2017) montrent des résultats empiriques qui corroborent cet argument.

Depuis quelques années, un vent de changement souffle sur les agences nationales de statistique et on considère de plus en plus d’autres sources de données. Cette tendance peut être expliquée par cinq facteurs principaux : i) le déclin des taux de réponse dans les enquêtes probabilistes au cours des dernières années; ii) les coûts de collecte élevés; iii) l’accroissement du fardeau sur les répondants; iv) le désir d’avoir accès à des statistiques en « temps réel » (Rao, 2020), c’est-à-dire de pouvoir produire des statistiques pratiquement au même moment ou très peu de temps après que le besoin d’informations ait été formulé; et v) la prolifération de sources de données non probabilistes (Rancourt, 2019) telles que les sources administratives, les médias sociaux, les enquêtes Web, etc. Afin de contrôler les coûts de collecte des enquêtes probabilistes et réduire les effets indésirables de la non-réponse sur la qualité des estimations, plusieurs auteurs ont proposé et évalué des méthodes de collecte adaptatives (ex.: Laflamme et Karaganis, 2010; Lundquist et Särndal, 2013; Schouten, Calinescu et Luiten, 2013; Beaumont, Haziza et Bocci, 2014; et Särndal, Lumiste et Traat, 2016). Tourangeau, Brick, Lohr et Li (2017) passent en revue différentes méthodes et soulignent leur succès mitigé à réduire le biais de non-réponse et les coûts. Särndal et coll. (2016) en arrivent également à la même conclusion en ce qui a trait au biais. Pour certaines enquêtes menées par des agences nationales de statistique, on observe encore des taux de réponse très faibles et il devient hasardeux de se fier uniquement aux méthodes de collecte et d’estimation pour corriger les biais potentiels de non-réponse. Plusieurs auteurs (ex.: Rivers, 2007; Elliott et Valliant, 2017) soulignent d’ailleurs la ressemblance entre une enquête probabiliste avec un très faible taux de réponse et une enquête non probabiliste. Cette dernière possède cependant l’avantage d’avoir une taille d’échantillon généralement beaucoup plus grande tout en étant moins coûteuse. Considérant les éléments discutés ci-dessus, certaines personnes en sont venues à croire que les enquêtes probabilistes pourraient graduellement disparaître (voir Couper, 2000; Couper, 2013; et Miller, 2017).

Les données de sources non probabilistes ne viennent toutefois pas sans défis, tel que noté entre autres par Couper (2000), Baker, Brick, Bates, Battaglia, Couper, Dever, Gile et Tourangeau (2013) et Elliott et Valliant (2017). Par exemple, il est bien connu que les enquêtes non probabilistes recueillant des données auprès de volontaires peuvent souvent mener à des estimations entachées d’un biais de sélection (ou biais de participation) important. Bethlehem (2016) donne une expression du biais et argue que le risque de biais est généralement plus élevé pour une enquête non probabiliste que pour une enquête probabiliste affectée par la non-réponse. Meng (2018) illustre que le biais devient dominant à mesure que la taille de l’échantillon non probabiliste augmente ce qui réduit considérablement la taille d’échantillon effective. Par conséquent, l’acquisition d’échantillons non probabilistes de grande taille ne peut pas assurer à elle seule la production d’estimations de qualité acceptable. Le sondage préélectoral mené par la revue Literary Digest visant à prédire le résultat de l’élection présidentielle américaine de 1936 en est un exemple marquant (Squire, 1988; Elliott et Valliant, 2017). Malgré une taille d’échantillon gigantesque de plus de deux millions de personnes, le sondage ne put prédire la victoire éclatante de Franklin Roosevelt. Il prédit plutôt incorrectement une victoire convaincante pour son adversaire, Alfred Landon. L’ensemble des répondants au sondage, fortement non représentatif de la population d’électeurs, était constitué principalement de propriétaires d’automobiles et de téléphones de même que des abonnés à la revue. Couper (2000) et Elliott et Valliant (2017) citent d’autres exemples plus récents de sondages non probabilistes qui ont mené à des conclusions erronées.

Le biais de sélection n’est pas le seul défi qui doit être relevé quand on utilise des données d’une source non probabiliste. Un autre défi de taille est la présence d’erreurs de mesure (ex.: Couper, 2000). Elles peuvent avoir un impact significatif sur les estimations, particulièrement lorsque les données sont recueillies sans avoir recours à un interviewer expérimenté. C’est le cas de la plupart des sources non probabilistes, notamment les enquêtes Web menées auprès de volontaires.

Le contexte actuel amène à se poser la question suivante : Comment peut-on utiliser des données d’une source non probabiliste afin de minimiser, voire éliminer, les coûts de collecte et le fardeau sur les répondants d’une enquête probabiliste tout en conservant un cadre d’inférence statistique valide et une qualité acceptable ? C’est la question principale à laquelle cet article tente de répondre.

La plupart des méthodes que nous exposerons intègrent des données d’une enquête probabiliste et d’une source non probabiliste. Zhang (2012) discute du concept de validité statistique lorsque des données intégrées sont utilisées pour faire les inférences. Nous soutenons que la détermination d’un cadre statistique qui permette de faire des inférences valides est essentielle pour la production de statistiques officielles, un point qui semble également partagé par Rancourt (2019). Sans un tel cadre, les propriétés habituelles des estimateurs comme le biais et la variance ne sont pas définies. Il devient alors impossible de choisir les estimateurs selon un critère objectif tel que, par exemple, choisir l’estimateur linéaire sans biais qui a la plus petite variance possible. Sans un cadre d’inférence statistique valide, on peut calculer des estimations mais on perd tous les outils usuels pour déterminer la qualité de ces estimations et tirer des conclusions justes sur les caractéristiques d’intérêt de la population.

Dans le reste de cet article, nous distinguerons les approches d’inférence fondées sur le plan de sondage, décrites à la section 3, des approches d’inférence fondées sur un modèle, décrites à la section 4. Pour chacune des approches, nous considérerons deux scénarios : Dans le premier, les données de la source non probabiliste correspondent exactement aux concepts d’intérêt et ne sont pas entachées d’erreurs de mesure. Ces données peuvent donc être utilisées pour remplacer des données d’une enquête probabiliste. Dans le deuxième scénario, les données de la source non probabiliste ne reflètent pas les concepts d’intérêt ou sont sujettes aux erreurs de mesure. Bien que de telles données ne puissent pas être utilisées pour remplacer directement des données d’une enquête probabiliste, elles peuvent néanmoins être utilisées comme informations auxiliaires pour l’enrichir. À la section 5, nous fournirons quelques réflexions supplémentaires. Commençons tout d’abord avec une mise en contexte à la section 2.

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : semi-annuel

Ottawa

Date de modification :: 2020-06-30

Sélection de la langue

Recherche et menus

Recherche

Les enquêtes probabilistes sont-elles vouées à disparaître pour la production de statistiques officielles ?
Section 1. Introduction

Les enquêtes probabilistes sont-elles vouées à disparaître pour la production de statistiques officielles ? Section 1. Introduction

Politique de rédaction

Présentation de textes pour la revue

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Les enquêtes probabilistes sont-elles vouées à disparaître pour la production de statistiques officielles ?
Section 1. Introduction