Commentaires à propos de l’article « Inférence statistique avec des échantillons d’enquête non probabiliste » : La miniaturisation de la corrélation due à un défaut des données : une stratégie polyvalente de traitement des échantillons non probabilistes
Section 1. Distinguer la probabilité du plan, la probabilité divine et la probabilité du procédé

1.1  Que peuvent indiquer les statistiques et les statisticiens au sujet des échantillons non probabilistes ?

Le traitement des échantillons non probabilistes est une affaire délicate, particulièrement pour les statisticiens. Ceux qui estiment que les statistiques reposent sur le raisonnement probabiliste et l’inférence peuvent se demander si les statistiques ont quelque chose d’utile à offrir au monde non probabiliste. Bien que ce questionnement puisse refléter une certaine ignorance, voire de l’hostilité à l’égard des statistiques, du point de vue conceptuel, il mérite une introspection et une extrospection de la part des statisticiens. À quel genre de probabilité faisons-nous référence quand l’échantillon est non probabiliste ? Toute la théorie et toutes les méthodes d’échantillonnage probabiliste reposent sur le caractère aléatoire introduit par de puissants mécanismes d’échantillonnage, qui permettent d’obtenir ensuite le magnifique cadre inférentiel fondé sur le plan sans qu’il soit nécessaire de concevoir que quoi que ce soit d’autre soit aléatoire (Kish, 1965; Wu et Thompson, 2020; Lohr, 2021). Quand cette puissance et cette beauté nous sont enlevées, que reste-t-il aux statisticiens ?

La réponse philosophique de certains statisticiens serait de rejeter complètement la question en déclarant qu’il n’existe pas d’échantillon probabiliste dans le monde réel. (Andrew Gelman m’a rappelé cette opinion quand je lui ai demandé de commenter la présente étude; voir une analyse sur le sujet dans https://statmodeling.stat.columbia.edu/2014/08/06.) Quand les données arrivent à notre bureau ou dans notre disque dur, même le plan d’échantillonnage probabiliste le mieux conçu est compromis par les imperfections de l’exécution, qui vont des défauts (incontrôlables) dans les bases de sondage aux non-réponses à différentes étapes, en passant par les erreurs de mesure dans les réponses. En ce sens, la notion d’échantillon probabiliste est toujours théorique, de la même manière que l’hypothèse de l’efficience du marché en économie, qui offre un cadre mathématiquement élégant pour l’idéalisation et les approximations, mais qui ne doit jamais être prise au pied de la lettre (par exemple Lo, 2017).

L’article d’actualité du professeur Changbao Wu (Wu, 2022) fournit une réponse plus pratique, en présentant la façon dont les statisticiens ont traité les échantillons non probabilistes dans la longue littérature sur les enquêtes par échantillons et (bien entendu) les études d’observation, en particulier concernant l’inférence causale; voir Elliott et Valliant (2017) et Zhang (2019) pour obtenir deux aperçus complémentaires portant sur le même défi. Pour mieux comprendre l’utilité de la théorie des probabilités en présence d’échantillons non probabilistes, il est important de reconnaître (au moins) trois types de concepts probabilistes aux fins d’inférence statistique, qui sont présentés dans la section 1.2. Les échantillons non probabilistes permettent de n’en retirer qu’un seul des trois, ainsi ils contraignent en général les spécialistes à une plus grande dépendance aux deux autres.

Une fois ces questions conceptuelles clarifiées, les autres sections traitent d’une stratégie unifiée de traitement des échantillons non probabilistes. La section 2 porte sur une identité fondamentale pour l’erreur d’estimation, qui a mené à l’élaboration de la corrélation due à un défaut des données (Meng, 2018). La section 3 traite ensuite de la façon dont ce concept peut inspirer une stratégie unifiée. La section 4 présente la stratégie pour les configurations qp MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGXbGaamiCaaaa@35D2@  et ξp, MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacqaH+oaEcaWGWbGaaiilaaaa@374F@  respectivement, dans l’étude de Wu (2022). Dans la section 5, on applique ensuite la stratégie aux deux configurations simultanément pour donner un aperçu immédiat de la célèbre double robustesse, laquelle est examinée dans l’étude de Wu (2022). À partir de ce même concept, la section 6 repose sur l’échantillonnage de contrebalancement comme stratégie de remplacement de la pondération. La section 7 se termine par un appel général à traiter la théorie de l’échantillonnage probabiliste comme une aspiration plutôt que comme l’élément central de la recherche sur les enquêtes et l’échantillonnage.

1.2  Un trio de concepts de probabilité

Le premier des trois concepts nommés ci-dessous, la probabilité du plan, se passe d’explications. Il est au cœur de la théorie de l’échantillonnage et il a été réifié par la mise en œuvre pratique, aussi imparfaite qu’elle puisse être. Bien que la distinction entre les deux concepts suivants, la probabilité divine et la probabilité du procédé, puisse être plus nuancée, en particulier sur le plan pratique, leurs différences conceptuelles ne sont pas moins importantes que la distinction entre un paramètre et un estimateur. Comme il se doit, l’indicateur d’enregistrement ou d’inclusion des données, lequel représente une quantité importante dans la modélisation des échantillons non probabilistes, fournit une illustration concrète des trois concepts de probabilité; voir le paragraphe principal de la section 4.

Probabilité du plan. Les répliques randomisées (Craiu, Gong et Meng, 2022) sont un concept et un outil primordiaux pour les statistiques et les sciences en général. En concevant et en exécutant un mécanisme probabiliste pour générer des répliques randomisées, nous créons des données probabilistes qui peuvent directement servir à faire des énoncés inférentiels vérifiables. De plus, l’échantillonnage probabiliste dans les enquêtes, la randomisation dans les essais cliniques, les bootstraps aux fins d’évaluation de la variabilité, les tests de permutation pour les vérifications d’hypothèses et les simulations Monte Carlo pour le calcul sont tous des exemples de méthodes statistiques élaborées à partir de la probabilité du plan. Les échantillons non probabilistes, par définition, n’ont pas de probabilité de plan, du moins pas de probabilité de plan définie. Par conséquent, le terme « échantillons non probabilistes » devrait être considéré comme une formulation abrégée d’« échantillons sans concept de probabilité du plan défini ».

Il faut toutefois nous rappeler que les probabilités du plan peuvent reprendre une place importante, surtout pour les grands ensembles de données non probabilistes, comme les données administratives, en raison de l’adoption de la confidentialité différentielle (Dwork, 2008), par exemple par le Bureau du recensement des États-Unis (voir l’éditorial de Gong, Groshen et Vadhan, 2022, et le numéro spécial du Harvard Data Science Review qu’il présente). Les méthodes de confidentialité différentielle permettent d’introduire du bruit aléatoire bien conçu dans les données dans le but de protéger la confidentialité des données sans sacrifier indûment l’utilité des données. Comme la probabilité du plan utilisée pour l’échantillonnage probabiliste, le fait que le mécanisme d’introduction de bruit soit conçu par le curateur des données et qu’il soit rendu public permet de fournir la transparence essentielle pour que l’utilisateur des données produise une inférence statistique valide (Gong, 2022). La question de savoir comment analyser correctement les données non probabilistes en cas de protection différentielle de la vie privée est largement ouverte. Il est encore plus fascinant de connaître la façon de tenir compte des défauts existants dans les données non probabilistes lors de la conception de mécanismes de protection probabiliste pour la confidentialité des données, afin d’éviter d’ajouter du bruit inutile. Les lecteurs qui souhaitent avoir une vue d’ensemble des problèmes statistiques découlant de la confidentialité des données devraient consulter l’excellent article de synthèse de Slavkovic et Seeman (2022) sur le domaine de la confidentialité des données en général.

Probabilité divine. En l’absence de probabilité du plan pour procéder à l’inférence fondée sur la randomisation, nous nous appuyons habituellement sur le concept selon lequel les données à notre disposition sont la réalisation d’un mécanisme probabiliste génératif donné par la nature ou par Dieu, afin d’effectuer une inférence statistique (classique). (J’ai entendu le terme « modèle de Dieu » pendant ma formation de doctorat et je l’ai considéré comme une expression de la foi ou comme quelque chose qui échappe au contrôle de l’homme, plutôt que comme le reflet des croyances religieuses d’une personne. L’adjectif « divine » est adopté dans la présente étude avec une connotation similaire.) Nous le faisons que nous croyions ou non que le monde est intrinsèquement déterministe ou stochastique (par exemple voir David Peat, 2002; Li et Meng, 2021). Nous devons supposer cette probabilité divine principalement en raison de la nature restrictive du cadre probabiliste auquel nous sommes si habitués. Par exemple, pour invoquer l’hypothèse de répartition au hasard des données manquantes, nous devons évoquer un mécanisme probabiliste dans lequel le concept de « données manquantes au hasard » (Rubin, 1976) peut être mis en forme. Comme l’ont souligné Elliott et Valliant (2017), la méthode de quasi-randomisation, qui correspond au cadre qp MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGXbGaamiCaaaa@35D2@  de Wu (2022), « suppose que l’échantillon non probabiliste ait en fait un mécanisme d’échantillonnage probabiliste, bien que ce soit un mécanisme comportant des probabilités qui doivent être estimées selon des hypothèses d’identification ». Cela signifie que nous remplaçons la probabilité du plan par une probabilité divine à laquelle nous croyons et qui est alors généralement traitée comme la « vérité » ou du moins comme un paramètre.

Sur le plan conceptuel, nous devons donc reconnaître que l’hypothèse d’une sorte particulière de probabilité divine n’est pas involontaire, car sinon nous n’aurions pas besoin de dépendre de notre foi pour continuer à travailler. Ce n’est pas non plus toujours nécessaire. Toute population finie fournit un histogramme naturel pour toute caractéristique quantifiable, ou un tableau de contingence pour toute caractéristique classable de ses éléments et, par conséquent, elle induit une probabilité divine sans faire référence à un quelconque caractère aléatoire, conceptualisé ou réalisé, si notre cible inférentielle est la population finie elle-même (et non une superpopulation qui permet de la générer, par exemple). La méthode de la vraisemblance empirique tire parti de ce cadre de probabilité naturel, qui se révèle également fondamental pour quantifier la qualité des données au moyen de la corrélation due à un défaut des données (voir Meng, 2018). Zhang (2019), pour qui le critère unifié était fondé sur la même identité pour établir la corrélation due à un défaut des données, fait la même constatation; voir la section 2 ci-dessous.

Probabilité du procédé. La plupart des probabilités utilisées dans la modélisation statistique sont, de loin, des procédés servant à exprimer notre croyance, nos connaissances a priori, nos hypothèses, nos idéalisations, nos compromis, voire notre désespoir (comme quand on impose une distribution a priori pour assurer l’identifiabilité, puisque rien d’autre ne fonctionne). Bien que la littérature statistique ait toujours mis l’accent sur la modélisation de la réalité, nous sommes inévitablement contraints de réaliser une variété de simplifications, d’approximations et, parfois, de distorsions délibérées afin de composer avec des contraintes pratiques (par exemple l’utilisation de l’inférence variationnelle à des fins d’efficacité du calcul; voir Blei, Kucukelbir et McAuliffe, 2017). Par conséquent, pour bon nombre de ces probabilités du procédé, rien ne contraint à ce qu’elles soient réalisables ni même mathématiquement cohérentes (par exemple l’emploi de distributions de probabilité conditionnelle incompatibles pour l’imputation à chaînes multiples; voir Van Buuren et Oudshoorn, 1999). Il n’est pas non plus facile de valider ces probabilités, ni même possible, comme Zhang (2019) l’a étudié et fait valoir dans un contexte d’échantillonnage non probabiliste, en particulier avec la méthode de modélisation de superpopulation, qui correspond au cadre ξp MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacqaH+oaEcaWGWbaaaa@369E@  de Wu (2022). Néanmoins, les probabilités de procédé offrent le meilleur rendement pour procéder à des inférences statistiques. La méthode de quasi-randomisation et la modélisation de superpopulation reposent toutes deux sur des probabilités du procédé pour fonctionner, comme le montre Wu (2022) et comme il est expliqué en détail dans les sections 4 et 5 de la présente étude. L’absence de probabilité du plan ne peut que favoriser la progression des probabilités de procédé. Pour paraphraser une citation célèbre de Box, « tous les modèles sont faux, mais certains sont utiles ». Cela signifie que toutes les probabilités de procédé posent des problèmes, mais que certaines permettent de résoudre des problèmes.

1.3  La réduction des données inexactes menant à des paquets d’intelligence artificielle

Pour résumer, les concepts probabilistes sont plus nécessaires pour les échantillons non probabilistes que pour les échantillons probabilistes, précisément parce qu’ils n’ont pas de probabilité de plan. La difficulté de traitement des échantillons non probabilistes ne représente pas un nouveau défi pour les statisticiens. S’il y a quelque chose de nouveau, il s’agit de la quantité considérable de grands ensembles de données non probabilistes, comme les données administratives et les données provenant des médias sociaux, et du besoin accéléré de combiner plusieurs sources de données, qui sont pour la plupart intrinsèquement non probabilistes parce qu’elles ne sont pas recueillies à des fins d’inférence statistique (par exemple Lohr et Rao, 2006; Meng, 2014; Buelens, Burger et van den Brakel, 2018; Beaumont et Rao, 2021). Contrairement à la croyance courante, la grande taille des « mégadonnées » peut empirer notre inférence, en raison du « paradoxe des mégadonnées » (Meng, 2018; Msaouel, 2022), quand nous ne tenons pas compte de la qualité des données lors de l’évaluation des erreurs et des incertitudes dans nos analyses; voir la section 6.1.

Il est donc plus urgent que jamais de sensibiliser et d’informer à grande échelle à propos de l’importance cruciale de la qualité des données et de la façon dont nous pouvons utiliser les méthodes et les théories statistiques pour contribuer à réduire le défaut des données. Dans le cadre de la présente étude, la préoccupation centrale va au-delà de la mise en garde habituelle au sujet du dicton « à données inexactes, résultats erronés ». En effet, si des données sont reconnues comme étant mauvaises, elles seront probablement traitées comme telles (probablement, mais pas toujours, car, comme Andrew Gelman me l’a rappelé, « de nombreux chercheurs croient fermement à la procédure plutôt qu’à la mesure, et pour ces personnes, le plus important consiste à respecter les règles, et non pas à s’interroger sur la provenance de leurs données »). L’objectif est d’empêcher que des données inexactes mènent à un paquet d’intelligence artificielle (Meng, 2021), c’est-à-dire que des données de faible qualité sont traitées automatiquement au moyen de procédures génériques afin de créer un paquet d’intelligence artificielle esthétiquement attrayant qui serait vendu à des consommateurs non informés, ou pire encore, à ceux qui cherchent des « données probantes » pour induire en erreur ou désinformer. De toute évidence, le traitement adéquat des échantillons non probabilistes ne résout pas tous les problèmes de qualité des données, mais il contribue grandement à régler le problème de plus en plus courant et nuisible du manque de contrôle de la qualité des données en science des données.

Je remercie donc le professeur Changbao Wu pour son analyse opportune et complète des « incontournables » de la grande usine de fabrication de saucisses qu’est le traitement d’échantillons non probabilistes. Elle apporte des vues beaucoup plus détaillées et nuancées que celles de l’analyse générale d’Elliott et Valliant (2017), qui illustrait de manière très fine de nombreuses formes d’échantillons non probabilistes ainsi que leurs méfaits. Elle présente également des jalons théoriques et méthodologiques qui nous permettront de mieux apprécier ceux exposés dans l’analyse intellectuelle de Zhang (2019), qui met les statisticiens et les scientifiques des données en général au défi de mieux comprendre la qualité, ou plutôt l’absence de qualité, des produits que nous fabriquons et promouvons. Ensemble, ces trois articles de synthèse donnent un aperçu informé à quiconque souhaiterait se joindre aux spécialistes cherchant à traiter les difficultés de plus en plus grandes causées par les données non probabilistes. Le mieux serait peut-être de commencer par l’étude d’Elliott et de Valliant (2017), qui brosse un portrait général de la situation, puis de lire l’étude de Wu (2022), qui s’attache principalement à exposer les méthodologies, et de terminer par l’étude de Zhang (2019), qui suscite des réflexions plus profondes sur certains défis particuliers. Pour en savoir plus sur d’autres méthodes courantes de traitement des échantillons non probabilistes, comme la modélisation multiniveau et la poststratification, nous invitons les lecteurs à lire Gelman (2007), Wang, Rothschild, Goel et Gelman (2015) et Liu, Gelman et Chen (2021).

En tant que chercheur et enseignant, je me suis penché sur ce domaine, mais j’ai souvent été frustré par le manque de temps ou d’énergie pour l’étudier en profondeur. Je suis donc particulièrement reconnaissant envers le rédacteur en chef, Jean-François Beaumont, de m’avoir invité à contribuer à ce que les messages du professeur Wu soient clairement entendus : les données ne peuvent pas être traitées comme si elles étaient représentatives à moins que les données observées ne soient véritablement des échantillons probabilistes (ce qui est extrêmement rare). De nombreux remèdes ont été proposés et essayés, mais il faut en élaborer et en évaluer bien davantage. Parmi ces remèdes, le concept de corrélation due à un défaut des données est une mesure générale prometteuse qui doit être étudiée et élaborée, comme nous le montrons ci-dessous.


Date de modification :