Commentaires à propos de l’article « Inférence statistique avec des échantillons d’enquête non probabiliste » : La miniaturisation de la corrélation due à un défaut des données : une stratégie polyvalente de traitement des échantillons non probabilistes
Section 2. Une identité déterministe de population finie pour l’erreur réelle
Pour
démontrer la richesse du cadre de population finie, considérons l’estimation de
la moyenne de la population, indiquée par de où indexe une population finie, et les sont des données recueillies sur une personne Pour chaque supposons que si (ou plutôt est enregistré dans notre échantillon, et que sinon. La taille de l’échantillon est alors Nous insistons sur le fait qu’il s’agit d’un
indicateur global, qui peut (et devrait) être décomposé en quand la collecte des données consiste en étapes (par exemple indique si la personne a été échantillonnée et si la personne a répondu ou non une fois
qu’elle a été échantillonnée).
Supposons
que est un ensemble de poids à déterminer où l’indice
est paramétré à de sorte que Supposons que est la moyenne pondérée de l’échantillon,
qu’on peut exprimer de trois façons :
où et est prise par rapport à la
distribution uniforme de l’indice paramétré La première expression dans
l’équation (2.1) définit simplement une moyenne pondérée de l’échantillon. À
l’aide de la deuxième expression permet de
transformer les moyennes de l’échantillon en moyennes de population finie.
Cette nouvelle expression banale est fondamentale parce qu’elle explique le
rôle de dans l’influence sur le
comportement de en tant qu’estimateur de La troisième expression révèle
une probabilité divine au moyen de la variable de l’indice de
population finie (IPF), grâce au fait que le calcul de la moyenne revient à
prendre en compte l’espérance d’un indice aléatoire uniformément distribué Tous les moments de population
finie peuvent alors être exprimés au moyen de
En particulier,
nous pouvons exprimer l’erreur réelle de par l’identité suivante, dont la première
expression remonte à Hartley et Ross (1954), qui l’ont utilisée pour exprimer
les biais dans des estimateurs par le ratio. La deuxième expression a été
donnée dans Meng (2018), mais elle comportait une expression légèrement
différente (mais équivalente) :
Dans cette équation, est la corrélation de population finie entre et est la variance de la population
finie de et est la taille d’échantillon
efficace en raison de l’utilisation des poids (Kish, 1965),
où est le coefficient de variation
(c’est-à-dire l’écart-type ou la moyenne) de
L’expression de l’équation (2.2) est
une identité algébrique parce qu’elle se vérifie pour toute instance de Ainsi, aucune hypothèse de modèle n’est
imposée, pas même l’hypothèse que (ou toute quantité) est aléatoire, ce qui
rappelle le commentaire de Mary Thompson cité dans l’étude de Wu (2022),
selon lequel « le fait que l’indicateur d’inclusion dans l’échantillon est une variable aléatoire est en soi une
hypothèse ». La seule exigence est que la valeur de enregistrée soit identique à celle de dans la population cible. (Il faut mentionner toutefois
que cette exigence comporte deux éléments : 1) il n’y a pas de surdénombrement,
c’est-à-dire que chaque personne dans l’échantillon appartient à la population
cible, par exemple aucun électeur non admissible n’est sondé quand la
population cible est celle des électeurs admissibles; 2) il n’y a pas
d’erreur de mesure. Il peut y avoir des extensions de cas comportant des
erreurs de mesure, mais elles ne sont pas examinées dans la présente étude.)
Quand nous utilisons des poids égaux, les trois facteurs du membre de droite de
l’équation (2.2) représentent, respectivement (de gauche à droite), le défaut
des données, l’insuffisance des données et la difficulté du problème, comme
l’explique Meng (2018) et comme l’illustrent en détail Bradley, Kuriwaki,
Isakov, Sejdinovic, Meng et Flaxman (2021) dans le contexte des enquêtes sur la
vaccination contre la COVID-19.
En particulier, quand tous les poids
sont égaux, est appelée corrélation due à un défaut des données (cdd) dans Meng (2018) parce qu’elle permet de mesurer le manque de
représentativité de l’échantillon en saisissant la dépendance de l’indicateur
d’inclusion ou d’enregistrement aux caractéristiques : plus la dépendance
est élevée, plus la moyenne de l’échantillon est biaisée quand il faut estimer
les moyennes de population. Quand l’on utilise les stratégies de base de
l’échantillonnage probabiliste ou de la pondération de probabilité inverse, la cdd est nulle en moyenne parce que et elle est de l’ordre parce qu’il s’agit essentiellement d’une
moyenne de termes indépendants (Meng, 2018). Notre
objectif général est donc de ramener la cdd
à pour les échantillons non probabilistes, ce
que nous appellerons « miniaturiser la cdd »
parce que est généralement un nombre minuscule dans la
pratique.
Quand nous utilisons des poids, le
premier terme saisit le défaut des données qui existe
toujours après l’ajustement de la pondération, puisqu’aucun poids n’est parfait
en pratique. L’identité dans l’équation (2.2) montre l’incidence des poids
sur la qualité et la quantité des données. L’incidence sur la taille
d’échantillon efficace nominale n’est jamais positive, car comme on peut le voir dans l’équation (2.3).
Par ailleurs, l’exactitude de l’équation (2.3) révèle qu’en fait, cette
expression bien connue n’est pas une approximation (ce qui est souvent attribué
à Kish, 1965), mais une formule exacte de réduction de la taille de
l’échantillon en raison de la pondération si
la pondération n’a pas d’incidence sur la cdd. Cependant, la pondération
peut avoir une incidence positive importante sur la réduction de l’erreur
globale quand on choisit judicieusement des poids pour diminuer
considérablement la cdd, bien
qu’apparemment cela se fasse au prix de Bien entendu, c’est exactement ce que vise le
cadre de quasi-randomisation dont il est question ci-dessous. Plus important
encore, l’équation (2.2) donne un aperçu unifié de la variété des méthodes
examinées dans l’étude de Wu (2022), notamment une explication intuitive de la
propriété doublement robuste, qui fait l’objet d’une attention accrue aux fins
d’intégration des sources de données, concernant à la fois des échantillons
probabilistes et non probabilistes (par exemple Yang, Kim et Song, 2020).
En effet, Zhang (2019,
section 3.1) a utilisé la première expression dans l’équation (2.2) pour
définir une hypothèse de non-informativité asymptotique non paramétrique
unifiée, qui exige que le numérateur passe à zéro, tout en gardant le dénominateur positif, quand Cette unification a permis à Zhang (2019)
d’évaluer la méthode de quasi-randomisation et la modélisation par la
régression au moyen d’un critère commun. Comme le montre la section 3, le
cadre de la cdd fait écho à cette
unification. La section 4 met plutôt l’accent sur le message général de
Zhang (2019). La section 5 traite d’un autre avantage simple de la
formulation de la cdd qui fournit une
explication immédiate de la célèbre double robustesse. La section 6 aborde
quant à elle le domaine beaucoup plus difficile de l‘élaboration d’un sous-échantillon
plus représentatif à partir d’un grand échantillon non représentatif, soit un
compromis précieux, puisque la qualité des données est beaucoup plus importante
que la quantité (Meng, 2018), comme nous le voyons brièvement ci-dessous.
ISSN : 1712-5685
Politique de rédaction
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.
© Sa Majesté le Roi du chef du Canada, représentée par le ministre de l’Industrie 2022
L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.
N° 12-001-X au catalogue
Périodicité : semi-annuel
Ottawa