Commentaires à propos de l’article « Inférence statistique avec des échantillons d’enquête non probabiliste » : La miniaturisation de la corrélation due à un défaut des données : une stratégie polyvalente de traitement des échantillons non probabilistes
Section 3. Une stratégie unificatrice fondée sur la corrélation due à un défaut des données
Dans la
configuration de Wu (2022), pour chaque personne nous avons un ensemble de caractéristiques où est la caractéristique d’intérêt et est une variable auxiliaire, ce qui est utile
de deux façons. Premièrement, la réduction du biais d’échantillonnage
attribuable à l’échantillonnage non probabiliste devient possible quand le
mécanisme non probabiliste peut être (entièrement) expliqué par Deuxièmement, en tirant parti des relations
entre et nous pouvons améliorer l’efficacité de notre
estimation. Comme point de départ, Wu (2022) suppose que nous avons deux sources
de données disponibles, que nous désignons au moyen de deux indicateurs
d’enregistrement, et La source principale des données est un
échantillon non probabiliste dans lequel nous observons à la fois et lorsque mais l’indicateur d’enregistrement est déterminé par un mécanisme non contrôlé
par une probabilité de plan (connue). La deuxième source est (supposée être) un
échantillon probabiliste dans lequel nous observons seulement lorsque Ce deuxième échantillon fournit des renseignements
pour estimer des renseignements auxiliaires sur la population, qui sont utiles
dans l’estimation des quantités de la population de par exemple sa moyenne. Par conséquent, cette
configuration est étroitement liée à la configuration où voir Tan (2013).
Pour
toute fonction considérons que Il est clair que nous pouvons estimer la
moyenne de la population en estimant et À partir du deuxième échantillon, peut être estimé sans biais puisqu’il ne
concerne que Nous pouvons alors nous concentrer sur
l’estimation de tout en reconnaissant qu’une méthode plus
fondée sur des principes nous amènerait à établir un modèle de probabilité ou
un modèle bayésien pour estimer conjointement toutes les quantités inconnues
(Pfeffermann, 2017). L’application de l’identité dans l’équation (2.2) où nous indique alors que notre tâche centrale
consiste à choisir le poids ou la fonction pour miniaturiser la cdd, Dans la présente étude, il est plus facile de
tout expliquer au moyen de la covariance
au lieu de la corrélation parce que est une fonction bilinéaire dans
et Toutefois, sur le plan théorique
et à des fins de modélisation, est plus attrayante en raison de
sa normalisation; voir les sections 6 et 7.
L’expression
dans l’équation (3.1) nous indique immédiatement la façon de la rendre nulle
dans les espérances sur le plan opérationnel, et dans quel sens conceptuel.
Quelle que soit la probabilité que nous imposions à (à préciser dans les dernières sections),
supposons que que nous assumons dépendra de
seulement. Alors, la linéarité de l’opérateur
de covariance implique que la covariance moyenne pour ce qui est du caractère
aléatoire dans est obtenue par
où De même, si l’on est prêt à
postuler un modèle conjoint pour conditionné sur sous forme d’indépendance alors
De façon très intuitive, on peut
assurer une covariance ou une corrélation nulle entre deux variables en faisant
de l’une des deux une constante. Les deux choix mèneraient alors respectivement
à la méthode de quasi-randomisation si l’on fait de et à la méthode de la superpopulation si l’on fait de une constante (par exemple zéro). La
double robustesse naît du fait que l’une ou l’autre suffise à rendre la
covariance nulle (dans le modèle conjoint), puisque la variable n’a pas
d’importance. Cependant, il est évident que ce ne sont pas les seules méthodes
permettant d’obtenir une corrélation ou une covariance nulle, ou une double
robustesse, comme le soulignent Kang et Schafer (2007) dans leur volonté de
démystifier la double robustesse (Robins, Rotnitzky et Zhao, 1994; Robins,
2000; Scharfstein, Rotnitzky et Robins, 1999). La question est aussi abordée
dans l’étude de Tan (2007, 2010), qui porte sur plusieurs estimateurs et leur
comparaison, y compris ceux qui correspondent seulement à la méthode de
quasi-randomisation ou à la méthode de la superpopulation. Certains estimateurs
sont doublement robustes.
En effet, parce que la formule (2.2)
est une identité pour l’erreur réelle, tout estimateur asymptotiquement sans
biais (linéaire) de la moyenne de population doit impliquer que la cdd correspondante est asymptotiquement
sans biais pour les valeurs nulles, et vice versa, pour ce qui est du caractère
aléatoire dans ou dans Cependant, il est possible que la cdd soit asymptotiquement sans biais
pour les valeurs nulles, sans supposer que le modèle est correctement précisé,
comme l’illustre un exemple dans la section 5. (Cette « robustesse
plus que double » est différente de la « robustesse multiple »
de Han et Wang (2013), qui doit encore supposer la validité d’au moins un des
modèles postulés.) Ces deux observations donnent à penser que toute stratégie
générale suffisante et nécessaire qui assure des estimateurs asymptotiquement
convergents ou sans biais (linéaires) pour la moyenne de la population
équivaudrait à miniaturiser la cdd.
À titre d’exemple d’aperçu unifié
qui autrement ne serait pas aussi intuitif, l’expression de l’équation (3.2)
donne à penser que nous devrions inclure notre estimation de comme élément du prédicteur dans le modèle de
régression puisque cela peut aider à réduire la
corrélation entre et en particulier quand nous utilisons des poids
constants En général, il est difficile de motiver
l’utilisation de comme prédicteur pour uniquement du point de vue de la régression,
surtout quand nous supposons que et sont indépendants étant donné (ce qui est habituellement une condition
nécessaire pour continuer, comme nous l’expliquons dans la section suivante).
Cependant, l’expression de l’équation (3.2) nous indique que pour estimer la
moyenne de il n’est pas absolument nécessaire d’ajuster
le bon modèle de régression En fait, il suffit de s’assurer que le
« résidu » est autant non corrélé à quand varie. Cependant, il est extrêmement important
de reconnaître qu’il ne suffit pas d’assurer une corrélation nulle ou faible
seulement dans les données observées, car nous informe peu sur Dans la configuration de Wu (2022), notre
capacité à extrapoler de à dépend de la disponibilité des données
auxiliaires (indépendantes) indexées par ce qui nous permet d’observer certains pour lesquels
La
littérature montre les avantages présentés par la stratégie consistant à
inclure des estimations de la propension comme prédicteur. Par exemple, Little
et An (2004) ont inclus le logit de dans leur modèle d’imputation et ils ont
constaté que cette inclusion a amélioré la robustesse de la moyenne imputée par
rapport à la spécification erronée du modèle d’imputation. Zhang et Little
(2009) et Tan, Flannagan et Elliott (2019) ont mis au point cette méthode et
ils l’ont améliorée davantage; ils ont utilisé l’expression « robuste au
carré » pour souligner la robustesse accrue. Dans un article plus récent
portant sur une stratégie similaire pour les échantillons non probabilistes,
Liu et coll. (2021) ont montré qu’il était important d’inclure la
propension estimée « comme prédicteur » dans (en utilisant la notation de la présente étude).
De plus, dans la littérature sur l’estimation par la méthode du maximum de
vraisemblance ciblée (EMVC) pour les modèles semi-paramétriques de traitement
des données non probabilistes (van der Laan et Rubin, 2006;
Luque-Fernandez, Schomaker, Rachet et Schnitzer, 2018) (voir aussi Scharfstein
et coll., 1999; Tan, 2010), les variables et sont appelées covariables intelligentes et sont utilisées dans les modèles de
régression pour Les mises en œuvre et les théories de l’EMVC
et celles de l’EMVC collaborative liée (van der Laan et Gruber, 2009
et 2010), sont mathématiquement plus impliquées que celles en contexte de
population finie, comme nous le verrons plus bas, mais les résultats tirés des
équations (3.2) et (3.3) peuvent nous permettre d’avoir des raisonnements
intuitifs utiles sur la compréhension de l’essence de ces méthodes.
ISSN : 1712-5685
Politique de rédaction
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.
© Sa Majesté le Roi du chef du Canada, représentée par le ministre de l’Industrie 2022
L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.
N° 12-001-X au catalogue
Périodicité : semi-annuel
Ottawa