Les enquêtes probabilistes sont-elles vouées à disparaître pour la production de statistiques officielles ?
Section 1. Introduction

En 1934, Jerzy Neyman posait les fondements de la théorie des enquêtes probabilistes et de son approche d’inférence fondée sur le plan de sondage avec la parution d’un article publié dans la revue Journal of the Royal Statistical Society. L’article de Neyman (1934) suscita l’intérêt de plusieurs statisticiens de l’époque et la théorie fut développée plus en profondeur dans les années subséquentes. Encore aujourd’hui, on trouve de nombreux articles sur ce sujet dans les revues de statistique. On réfère le lecteur à Rao (2005) pour une excellente revue de différents développements de la théorie des enquêtes probabilistes au cours du vingtième siècle (voir aussi Bethlehem, 2009; Rao et Fuller, 2017; et Kalton, 2019). De nos jours, les agences nationales de statistique, comme Statistique Canada et l’Institut National de la Statistique et des Études Économiques (INSEE) en France, ont la plupart du temps recours à des enquêtes probabilistes pour obtenir l’information désirée sur une population d’intérêt.

La popularité des enquêtes probabilistes pour la production de statistiques officielles découle en grande partie du caractère non paramétrique de l’approche d’inférence élaborée par Neyman (1934). En d’autres mots, les enquêtes probabilistes permettent de faire des inférences valides sur une population sans avoir recours à des hypothèses de modèle. C’est une propriété attrayante, voire même indispensable selon Deville (1991), pour les agences nationales de statistique qui produisent des statistiques officielles. Ces agences ont d’ailleurs été historiquement réticentes à la prise inutile de risques inhérente aux approches dépendant de la validité d’hypothèses de modèle, surtout lorsque celles-ci sont difficilement vérifiables.

Les estimations issues d’enquêtes probabilistes peuvent cependant s’avérer inefficaces, au point même d’être inutilisables, particulièrement lorsque la taille d’échantillon est petite (voir, par exemple, Rao et Molina, 2015). De plus, elles reposent sur l’hypothèse que les erreurs non dues à l’échantillonnage, telles que les erreurs de mesure, de couverture ou de non-réponse, sont négligeables. Afin de minimiser ces erreurs, les agences nationales de statistique mettent souvent beaucoup de ressources en oeuvre. Par exemple, les questionnaires sont testés pour s’assurer qu’ils sont bien compris par les répondants, les données de l’enquête sont validées au moyen de différentes règles de vérification, les répondants sont recontactés au besoin pour vérifier les données recueillies, un suivi des non-répondants est effectué pour minimiser l’impact de la non-réponse sur les estimations, etc. Malgré tous ces efforts, des erreurs non dues à l’échantillonnage subsistent en pratique. Il existe bien sûr des adaptations de la théorie pour tenir compte de ces erreurs. Ces adaptations sont nécessairement accompagnées par l’introduction d’hypothèses de modèle et ainsi par le risque de biais résultant de l’inadéquation des hypothèses. Les enquêtes probabilistes ne sont donc pas une panacée mais on reconnaît généralement qu’elles représentent une source fiable d’informations sur une population sauf dans les cas où les erreurs non dues à l’échantillonnage deviennent prépondérantes. Brick (2011) pousse l’argument plus loin et défend l’idée qu’une enquête probabiliste avec un faible taux de réponse fournit des estimations généralement moins biaisées, si elle est bien conçue, qu’une enquête non probabiliste menée auprès de volontaires. Dutwin and Buskirk (2017) montrent des résultats empiriques qui corroborent cet argument.

Depuis quelques années, un vent de changement souffle sur les agences nationales de statistique et on considère de plus en plus d’autres sources de données. Cette tendance peut être expliquée par cinq facteurs principaux : i) le déclin des taux de réponse dans les enquêtes probabilistes au cours des dernières années; ii) les coûts de collecte élevés; iii) l’accroissement du fardeau sur les répondants; iv) le désir d’avoir accès à des statistiques en « temps réel » (Rao, 2020), c’est-à-dire de pouvoir produire des statistiques pratiquement au même moment ou très peu de temps après que le besoin d’informations ait été formulé; et v) la prolifération de sources de données non probabilistes (Rancourt, 2019) telles que les sources administratives, les médias sociaux, les enquêtes Web, etc. Afin de contrôler les coûts de collecte des enquêtes probabilistes et réduire les effets indésirables de la non-réponse sur la qualité des estimations, plusieurs auteurs ont proposé et évalué des méthodes de collecte adaptatives (ex.: Laflamme et Karaganis, 2010; Lundquist et Särndal, 2013; Schouten, Calinescu et Luiten, 2013; Beaumont, Haziza et Bocci, 2014; et Särndal, Lumiste et Traat, 2016). Tourangeau, Brick, Lohr et Li (2017) passent en revue différentes méthodes et soulignent leur succès mitigé à réduire le biais de non-réponse et les coûts. Särndal et coll. (2016) en arrivent également à la même conclusion en ce qui a trait au biais. Pour certaines enquêtes menées par des agences nationales de statistique, on observe encore des taux de réponse très faibles et il devient hasardeux de se fier uniquement aux méthodes de collecte et d’estimation pour corriger les biais potentiels de non-réponse. Plusieurs auteurs (ex.: Rivers, 2007; Elliott et Valliant, 2017) soulignent d’ailleurs la ressemblance entre une enquête probabiliste avec un très faible taux de réponse et une enquête non probabiliste. Cette dernière possède cependant l’avantage d’avoir une taille d’échantillon généralement beaucoup plus grande tout en étant moins coûteuse. Considérant les éléments discutés ci-dessus, certaines personnes en sont venues à croire que les enquêtes probabilistes pourraient graduellement disparaître (voir Couper, 2000; Couper, 2013; et Miller, 2017).

Les données de sources non probabilistes ne viennent toutefois pas sans défis, tel que noté entre autres par Couper (2000), Baker, Brick, Bates, Battaglia, Couper, Dever, Gile et Tourangeau (2013) et Elliott et Valliant (2017). Par exemple, il est bien connu que les enquêtes non probabilistes recueillant des données auprès de volontaires peuvent souvent mener à des estimations entachées d’un biais de sélection (ou biais de participation) important. Bethlehem (2016) donne une expression du biais et argue que le risque de biais est généralement plus élevé pour une enquête non probabiliste que pour une enquête probabiliste affectée par la non-réponse. Meng (2018) illustre que le biais devient dominant à mesure que la taille de l’échantillon non probabiliste augmente ce qui réduit considérablement la taille d’échantillon effective. Par conséquent, l’acquisition d’échantillons non probabilistes de grande taille ne peut pas assurer à elle seule la production d’estimations de qualité acceptable. Le sondage préélectoral mené par la revue Literary Digest visant à prédire le résultat de l’élection présidentielle américaine de 1936 en est un exemple marquant (Squire, 1988; Elliott et Valliant, 2017). Malgré une taille d’échantillon gigantesque de plus de deux millions de personnes, le sondage ne put prédire la victoire éclatante de Franklin Roosevelt. Il prédit plutôt incorrectement une victoire convaincante pour son adversaire, Alfred Landon. L’ensemble des répondants au sondage, fortement non représentatif de la population d’électeurs, était constitué principalement de propriétaires d’automobiles et de téléphones de même que des abonnés à la revue. Couper (2000) et Elliott et Valliant (2017) citent d’autres exemples plus récents de sondages non probabilistes qui ont mené à des conclusions erronées.

Le biais de sélection n’est pas le seul défi qui doit être relevé quand on utilise des données d’une source non probabiliste. Un autre défi de taille est la présence d’erreurs de mesure (ex.: Couper, 2000). Elles peuvent avoir un impact significatif sur les estimations, particulièrement lorsque les données sont recueillies sans avoir recours à un interviewer expérimenté. C’est le cas de la plupart des sources non probabilistes, notamment les enquêtes Web menées auprès de volontaires.

Le contexte actuel amène à se poser la question suivante : Comment peut-on utiliser des données d’une source non probabiliste afin de minimiser, voire éliminer, les coûts de collecte et le fardeau sur les répondants d’une enquête probabiliste tout en conservant un cadre d’inférence statistique valide et une qualité acceptable ? C’est la question principale à laquelle cet article tente de répondre.

La plupart des méthodes que nous exposerons intègrent des données d’une enquête probabiliste et d’une source non probabiliste. Zhang (2012) discute du concept de validité statistique lorsque des données intégrées sont utilisées pour faire les inférences. Nous soutenons que la détermination d’un cadre statistique qui permette de faire des inférences valides est essentielle pour la production de statistiques officielles, un point qui semble également partagé par Rancourt (2019). Sans un tel cadre, les propriétés habituelles des estimateurs comme le biais et la variance ne sont pas définies. Il devient alors impossible de choisir les estimateurs selon un critère objectif tel que, par exemple, choisir l’estimateur linéaire sans biais qui a la plus petite variance possible. Sans un cadre d’inférence statistique valide, on peut calculer des estimations mais on perd tous les outils usuels pour déterminer la qualité de ces estimations et tirer des conclusions justes sur les caractéristiques d’intérêt de la population.

Dans le reste de cet article, nous distinguerons les approches d’inférence fondées sur le plan de sondage, décrites à la section 3, des approches d’inférence fondées sur un modèle, décrites à la section 4. Pour chacune des approches, nous considérerons deux scénarios : Dans le premier, les données de la source non probabiliste correspondent exactement aux concepts d’intérêt et ne sont pas entachées d’erreurs de mesure. Ces données peuvent donc être utilisées pour remplacer des données d’une enquête probabiliste. Dans le deuxième scénario, les données de la source non probabiliste ne reflètent pas les concepts d’intérêt ou sont sujettes aux erreurs de mesure. Bien que de telles données ne puissent pas être utilisées pour remplacer directement des données d’une enquête probabiliste, elles peuvent néanmoins être utilisées comme informations auxiliaires pour l’enrichir. À la section 5, nous fournirons quelques réflexions supplémentaires. Commençons tout d’abord avec une mise en contexte à la section 2.


Date de modification :