Commentaires à propos de l’article « Inférence statistique avec des échantillons d’enquête non probabiliste » : La miniaturisation de la corrélation due à un défaut des données : une stratégie polyvalente de traitement des échantillons non probabilistes
Section 3. Une stratégie unificatrice fondée sur la corrélation due à un défaut des données

Dans la configuration de Wu (2022), pour chaque personne i, MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGPbGaaiilaaaa@3585@  nous avons un ensemble de caractéristiques A i ={ y i , x i }, MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGbbWaaSbaaSqaaiaadMgaaeqaaO GaaGjbVlabg2da9iaaysW7caaI7bGaamyEamaaBaaaleaacaWGPbaa beaakiaaiYcacaaMe8UaaCiEamaaBaaaleaacaWGPbaabeaakiaai2 hacaGGSaaaaa@4337@  où y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWG5baaaa@34E5@  est la caractéristique d’intérêt et x MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWH4baaaa@34E8@  est une variable auxiliaire, ce qui est utile de deux façons. Premièrement, la réduction du biais d’échantillonnage attribuable à l’échantillonnage non probabiliste devient possible quand le mécanisme non probabiliste peut être (entièrement) expliqué par x. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWH4bGaaiOlaaaa@359A@  Deuxièmement, en tirant parti des relations entre y i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWG5bWaaSbaaSqaaiaadMgaaeqaaa aa@35FF@  et x i , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWH4bWaaSbaaSqaaiaadMgaaeqaaO Gaaiilaaaa@36BC@  nous pouvons améliorer l’efficacité de notre estimation. Comme point de départ, Wu (2022) suppose que nous avons deux sources de données disponibles, que nous désignons au moyen de deux indicateurs d’enregistrement, R MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbaaaa@34BE@  et R * . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbWaaWbaaSqabeaacaGGQaaaaO GaaiOlaaaa@3655@  La source principale des données est un échantillon non probabiliste dans lequel nous observons à la fois y i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWG5bWaaSbaaSqaaiaadMgaaeqaaa aa@35FF@  et x i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWH4bWaaSbaaSqaaiaadMgaaeqaaa aa@3602@  lorsque iS{i: R i =1}, MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGPbGaaGjbVlabgIGiolaaysW7ca WGtbGaaGjbVlabggMi6kaaysW7caaI7bGaamyAaiaaiQdacaaMe8Ua amOuamaaBaaaleaacaWGPbaabeaakiaaysW7cqGH9aqpcaaMe8UaaG ymaiaai2hacaGGSaaaaa@4BFF@  mais l’indicateur d’enregistrement R i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbWaaSbaaSqaaiaadMgaaeqaaa aa@35D8@  est déterminé par un mécanisme non contrôlé par une probabilité de plan (connue). La deuxième source est (supposée être) un échantillon probabiliste dans lequel nous observons seulement x i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWH4bWaaSbaaSqaaiaadMgaaeqaaa aa@3602@  lorsque i S * {i: R i * =1}. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGPbGaaGjbVlabgIGiolaaysW7ca WGtbWaaWbaaSqabeaacaGGQaaaaOGaaGjbVlabggMi6kaaysW7caaI 7bGaamyAaiaaiQdacaaMe8UaamOuamaaDaaaleaacaWGPbaabaGaai OkaaaakiaaysW7cqGH9aqpcaaMe8UaaGymaiaai2hacaGGUaaaaa@4D95@  Ce deuxième échantillon fournit des renseignements pour estimer des renseignements auxiliaires sur la population, qui sont utiles dans l’estimation des quantités de la population de y, MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWG5bGaaiilaaaa@3595@  par exemple sa moyenne. Par conséquent, cette configuration est étroitement liée à la configuration où S S * =N; MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGtbGaaGjbVlabgQIiilaaysW7ca WGtbWaaWbaaSqabeaacaGGQaaaaOGaaGjbVlabg2da9iaaysW7tCvA UfKttLearyat1nwAKfgidfgBSL2zYfgCOLhaiqGacqWFobGtcaGG7a aaaa@4AA9@  voir Tan (2013).

Pour toute fonction m(x), MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGTbGaaGPaVlaaiIcacaWH4bGaaG ykaiaacYcaaaa@397A@  considérons que z i =ym( x i ),iN. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWG6bWaaSbaaSqaaiaadMgaaeqaaO GaaGjbVlabg2da9iaaysW7caWG5bGaaGjbVlabgkHiTiaaysW7caWG TbGaaGPaVlaaiIcacaWH4bWaaSbaaSqaaiaadMgaaeqaaOGaaGykai aaiYcacaaMe8UaamyAaiaaysW7cqGHiiIZcaaMe8+exLMBb50ujbqe gWuDJLgzHbYqHXgBPDMCHbhA5baceiGae8Nta4KaaiOlaaaa@584B@  Il est clair que nous pouvons estimer la moyenne de la population y ¯ N = E I ( y I ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaaceWG5bGbaebadaWgaaWcbaGaamOtaa qabaGccaaMe8Uaeyypa0JaaGjbVlaabweadaWgaaWcbaGaamysaaqa baGccaaMc8UaaGikaiaadMhadaWgaaWcbaGaamysaaqabaGccaaIPa aaaa@40E4@  en estimant z ¯ = E I ( z I ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaaceWG6bGbaebacaaMe8Uaeyypa0JaaG jbVlaabweadaWgaaWcbaGaamysaaqabaGccaaMc8UaaGikaiaadQha daWgaaWcbaGaamysaaqabaGccaaIPaaaaa@3FDD@  et m ¯ = E I [ m( x I ) ]. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaaceWGTbGbaebacaaMe8Uaeyypa0JaaG jbVlaabweadaWgaaWcbaGaamysaaqabaGccaaMc8+aamWabeaacaWG TbGaaGPaVlaaiIcacaWH4bWaaSbaaSqaaiaadMeaaeqaaOGaaGykaa Gaay5waiaaw2faaiaac6caaaa@44F4@  À partir du deuxième échantillon, m ¯ MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaaceWGTbGbaebaaaa@34F1@  peut être estimé sans biais puisqu’il ne concerne que x. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWH4bGaaiOlaaaa@359A@  Nous pouvons alors nous concentrer sur l’estimation de z ¯ , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaaceWG6bGbaebacaGGSaaaaa@35AE@  tout en reconnaissant qu’une méthode plus fondée sur des principes nous amènerait à établir un modèle de probabilité ou un modèle bayésien pour estimer conjointement toutes les quantités inconnues (Pfeffermann, 2017). L’application de l’identité dans l’équation (2.2) où G=z MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGhbGaaGjbVlabg2da9iaaysW7ca WG6baaaa@39D2@  nous indique alors que notre tâche centrale consiste à choisir le poids { W i ,iS} MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaaI7bGaam4vamaaBaaaleaacaWGPb aabeaakiaaiYcacaaMe8UaamyAaiaaysW7cqGHiiIZcaaMe8Uaam4u aiaai2haaaa@409A@  ou la fonction m MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGTbaaaa@34D9@  pour miniaturiser la cdd, ρ R ˜ ,z . MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacqaHbpGCdaWgaaWcbaGabmOuayaaia GaaiilaiaaykW7caWG6baabeaakiaac6caaaa@3AAE@  Dans la présente étude, il est plus facile de tout expliquer au moyen de la covariance

c R ˜ ,z Cov I ( R ˜ I , z I )= Cov I ( W I R I , y I m( x I ))= 1 N i=1 N W i R i ( z i z ¯ )(3.1) MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGJbWaaSbaaSqaaiqadkfagaacai aacYcacaaMc8UaamOEaaqabaGccaaMe8UaaGjbVlabggMi6kaaysW7 caaMe8Uaae4qaiaab+gacaqG2bWaaSbaaSqaaiaadMeaaeqaaOGaaG PaVlaaiIcaceWGsbGbaGaadaWgaaWcbaGaamysaaqabaGccaaISaGa aGjbVlaadQhadaWgaaWcbaGaamysaaqabaGccaaIPaGaaGjbVlaays W7cqGH9aqpcaaMe8UaaGjbVlaaboeacaqGVbGaaeODamaaBaaaleaa caWGjbaabeaakiaaykW7caaIOaGaam4vamaaBaaaleaacaWGjbaabe aakiaadkfadaWgaaWcbaGaamysaaqabaGccaaISaGaaGjbVlaadMha daWgaaWcbaGaamysaaqabaGccaaMe8UaeyOeI0IaaGjbVlaad2gaca aIOaGaaCiEamaaBaaaleaacaWGjbaabeaakiaaiMcacaaIPaGaaGjb VlaaysW7cqGH9aqpcaaMe8UaaGjbVpaalaaabaGaaGymaaqaaiaad6 eaaaGaaGPaVpaaqahabeWcbaGaamyAaiaaykW7cqGH9aqpcaaMc8Ua aGymaaqaaiaad6eaa0GaeyyeIuoakiaaysW7caWGxbWaaSbaaSqaai aadMgaaeqaaOGaamOuamaaBaaaleaacaWGPbaabeaakiaaykW7caaI OaGaamOEamaaBaaaleaacaWGPbaabeaakiaaysW7cqGHsislcaaMe8 UabmOEayaaraGaaGykaiaaywW7caaMf8UaaGzbVlaaywW7caGGOaGa aG4maiaac6cacaaIXaGaaiykaaaa@98F4@

au lieu de la corrélation ρ R ˜ ,z MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacqaHbpGCdaWgaaWcbaGabmOuayaaia GaaiilaiaaykW7caWG6baabeaaaaa@39F3@  parce que Cov I ( R ˜ I , z I ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaqGdbGaae4BaiaabAhadaWgaaWcba GaamysaaqabaGccaaMc8UaaGikaiqadkfagaacamaaBaaaleaacaWG jbaabeaakiaaiYcacaaMe8UaamOEamaaBaaaleaacaWGjbaabeaaki aaiMcaaaa@40BC@  est une fonction bilinéaire dans R I MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbWaaSbaaSqaaiaadMeaaeqaaa aa@35B8@  et z I . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWG6bWaaSbaaSqaaiaadMeaaeqaaO GaaiOlaaaa@369C@  Toutefois, sur le plan théorique et à des fins de modélisation, ρ R ˜ ,z MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacqaHbpGCdaWgaaWcbaGabmOuayaaia GaaiilaiaaykW7caWG6baabeaaaaa@39F3@  est plus attrayante en raison de sa normalisation; voir les sections 6 et 7.

L’expression dans l’équation (3.1) nous indique immédiatement la façon de la rendre nulle dans les espérances sur le plan opérationnel, et dans quel sens conceptuel. Quelle que soit la probabilité que nous imposions à R i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbWaaSbaaSqaaiaadMgaaeqaaa aa@35D8@  (à préciser dans les dernières sections), supposons que π i =Pr( R i =1| A ), MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacqaHapaCdaWgaaWcbaGaamyAaaqaba GccaaMe8Uaeyypa0JaaGjbVlGaccfacaGGYbGaaGPaVlaaiIcacaWG sbWaaSbaaSqaaiaadMgaaeqaaOGaaGjbVlabg2da9iaaysW7caaIXa GaaGjbVpaaeeqabaGaaGPaVlaadgeadaWgaaWcbaGaamyAaaqabaaa kiaawEa7aiaaiMcacaGGSaaaaa@4DC1@  que nous assumons dépendra de A i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGbbWaaSbaaSqaaiaadMgaaeqaaa aa@35C7@  seulement. Alors, la linéarité de l’opérateur de covariance implique que la covariance moyenne pour ce qui est du caractère aléatoire dans R i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbWaaSbaaSqaaiaadMgaaeqaaa aa@35D8@  est obtenue par

E[ c R ˜ ,z | A]= Cov I ( W I π I , y I m( x I ) ),(3.2) MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaqGfbGaaGPaVlaaiUfacaWGJbWaaS baaSqaaiqadkfagaacaiaacYcacaaMc8UaamOEaaqabaGccaaMc8+a aqqabeaacaaMc8UaaCyqaaGaay5bSdGaaGyxaiaaysW7caaMe8Uaey ypa0JaaGjbVlaaysW7caqGdbGaae4BaiaabAhadaWgaaWcbaGaamys aaqabaGccaaMc8+aaeWaaeaacaWGxbWaaSbaaSqaaiaadMeaaeqaaO GaeqiWda3aaSbaaSqaaiaadMeaaeqaaOGaaGilaiaaysW7caWG5bWa aSbaaSqaaiaadMeaaeqaaOGaaGjbVlabgkHiTiaaysW7caWGTbGaaG PaVlaaiIcacaWH4bWaaSbaaSqaaiaadMeaaeqaaOGaaGykaaGaayjk aiaawMcaaiaaiYcacaaMf8UaaGzbVlaaywW7caaMf8UaaGzbVlaacI cacaaIZaGaaiOlaiaaikdacaGGPaaaaa@6F8F@

A={ A i ,iN}. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWHbbGaaGjbVlabg2da9iaaysW7ca aI7bGaamyqamaaBaaaleaacaWGPbaabeaakiaaiYcacaaMe8UaamyA aiaaysW7cqGHiiIZcaaMe8+exLMBb50ujbqegWuDJLgzHbYqHXgBPD MCHbhA5baceiGae8Nta4KaaGPaVlaai2hacaGGUaaaaa@5167@  De même, si l’on est prêt à postuler un modèle conjoint pour { ( R i , y i ),iN } MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0l bbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0R Yxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGa caGaaeqabaGabiWadaaakeaadaGadeqaaiaaiIcacaWGsbWaaSbaaS qaaiaadMgaaeqaaOGaaGilaiaaysW7caWG5bWaaSbaaSqaaiaadMga aeqaaOGaaGykaiaacYcacaaMe8UaamyAaiaaysW7cqGHiiIZcaaMe8 +exLMBb50ujbqegWuDJLgzHbYqHXgBPDMCHbhA5baceiGae8Nta4ea caGL7bGaayzFaaaaaa@4E15@  conditionné sur X MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0l bbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0R Yxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGa caGaaeqabaGabiWadaaakeaacaWHybaaaa@32A1@  sous forme d’indépendance Π i=1 N P( R i , y i | x i ), MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0l bbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0R Yxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGa caGaaeqabaGabiWadaaakeaacqqHGoaudaqhaaWcbaGaamyAaiaayk W7cqGH9aqpcaaMc8UaaGymaaqaaiaad6eaaaGccaWGqbGaaGPaVpaa bmqabaGaamOuamaaBaaaleaacaWGPbaabeaakiaacYcacaWG5bWaaS baaSqaaiaadMgaaeqaaOGaaGjbVpaaeeqabaGaaGPaVlaahIhadaWg aaWcbaGaamyAaaqabaaakiaawEa7aaGaayjkaiaawMcaaiaacYcaaa a@4A47@  alors

E[ c R ˜ ,z | X]= Cov I ( W I π I ,E( y I | x I )m( x I ) ).(3.3) MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaqGfbGaaGPaVlaaiUfacaWGJbWaaS baaSqaaiqadkfagaacaiaacYcacaaMc8UaamOEaaqabaGccaaMc8+a aqqabeaacaaMc8UaaCiwaaGaay5bSdGaaGyxaiaaysW7caaMe8Uaey ypa0JaaGjbVlaaysW7caqGdbGaae4BaiaabAhadaWgaaWcbaGaamys aaqabaGccaaMc8+aaeWaaeaacaWGxbWaaSbaaSqaaiaadMeaaeqaaO GaeqiWda3aaSbaaSqaaiaadMeaaeqaaOGaaGilaiaabweacaaMc8Ua aGikaiaadMhadaWgaaWcbaGaamysaaqabaGccaaMc8+aaqqabeaaca aMc8UaaCiEamaaBaaaleaacaWGjbaabeaaaOGaay5bSdGaaGykaiaa ysW7cqGHsislcaaMe8UaamyBaiaaykW7caaIOaGaaCiEamaaBaaale aacaWGjbaabeaakiaaiMcaaiaawIcacaGLPaaacaaIUaGaaGzbVlaa ywW7caaMf8UaaGzbVlaaywW7caGGOaGaaG4maiaac6cacaaIZaGaai ykaaaa@7884@

De façon très intuitive, on peut assurer une covariance ou une corrélation nulle entre deux variables en faisant de l’une des deux une constante. Les deux choix mèneraient alors respectivement à la méthode de quasi-randomisation si l’on fait de W I π I 1 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGxbWaaSbaaSqaaiaadMeaaeqaaO GaeqiWda3aaSbaaSqaaiaadMeaaeqaaOGaaGjbVlabg2Hi1kaaysW7 caaIXaaaaa@3DDD@  et à la méthode de la superpopulation si l’on fait de E[ y I | x I ]m( x I ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaqGfbGaaGPaVlaaiUfacaWG5bWaaS baaSqaaiaadMeaaeqaaOGaaGPaVpaaeeqabaGaaGPaVlaahIhadaWg aaWcbaGaamysaaqabaaakiaawEa7aiaai2facaaMe8UaeyOeI0IaaG jbVlaad2gacaaMc8UaaGikaiaahIhadaWgaaWcbaGaamysaaqabaGc caaIPaaaaa@4AA6@  une constante (par exemple zéro). La double robustesse naît du fait que l’une ou l’autre suffise à rendre la covariance nulle (dans le modèle conjoint), puisque la variable n’a pas d’importance. Cependant, il est évident que ce ne sont pas les seules méthodes permettant d’obtenir une corrélation ou une covariance nulle, ou une double robustesse, comme le soulignent Kang et Schafer (2007) dans leur volonté de démystifier la double robustesse (Robins, Rotnitzky et Zhao, 1994; Robins, 2000; Scharfstein, Rotnitzky et Robins, 1999). La question est aussi abordée dans l’étude de Tan (2007, 2010), qui porte sur plusieurs estimateurs et leur comparaison, y compris ceux qui correspondent seulement à la méthode de quasi-randomisation ou à la méthode de la superpopulation. Certains estimateurs sont doublement robustes.

En effet, parce que la formule (2.2) est une identité pour l’erreur réelle, tout estimateur asymptotiquement sans biais (linéaire) de la moyenne de population doit impliquer que la cdd correspondante est asymptotiquement sans biais pour les valeurs nulles, et vice versa, pour ce qui est du caractère aléatoire dans R MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbaaaa@34BE@  ou dans {R,y}. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaaI7bGaamOuaiaaiYcacaaMe8Uaam yEaiaai2hacaGGUaaaaa@3ABD@  Cependant, il est possible que la cdd soit asymptotiquement sans biais pour les valeurs nulles, sans supposer que le modèle est correctement précisé, comme l’illustre un exemple dans la section 5. (Cette « robustesse plus que double » est différente de la « robustesse multiple » de Han et Wang (2013), qui doit encore supposer la validité d’au moins un des modèles postulés.) Ces deux observations donnent à penser que toute stratégie générale suffisante et nécessaire qui assure des estimateurs asymptotiquement convergents ou sans biais (linéaires) pour la moyenne de la population équivaudrait à miniaturiser la cdd.

À titre d’exemple d’aperçu unifié qui autrement ne serait pas aussi intuitif, l’expression de l’équation (3.2) donne à penser que nous devrions inclure notre estimation de π I MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacqaHapaCdaWgaaWcbaGaamysaaqaba aaaa@369E@  comme élément du prédicteur dans le modèle de régression m( x I ), MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGTbGaaGPaVlaaiIcacaWH4bWaaS baaSqaaiaadMeaaeqaaOGaaGykaiaacYcaaaa@3A7E@  puisque cela peut aider à réduire la corrélation entre W I π I MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGxbWaaSbaaSqaaiaadMeaaeqaaO GaeqiWda3aaSbaaSqaaiaadMeaaeqaaaaa@387E@  et z I = y I m( x I ), MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWG6bWaaSbaaSqaaiaadMeaaeqaaO GaaGjbVlabg2da9iaaysW7caWG5bWaaSbaaSqaaiaadMeaaeqaaOGa aGjbVlabgkHiTiaaysW7caWGTbGaaGPaVlaaiIcacaWH4bWaaSbaaS qaaiaadMeaaeqaaOGaaGykaiaacYcaaaa@46AA@  en particulier quand nous utilisons des poids constants W I . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGxbWaaSbaaSqaaiaadMeaaeqaaO GaaiOlaaaa@3679@  En général, il est difficile de motiver l’utilisation de π ^ I MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacuaHapaCgaqcamaaBaaaleaacaWGjb aabeaaaaa@36AE@  comme prédicteur pour y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWG5baaaa@34E5@  uniquement du point de vue de la régression, surtout quand nous supposons que y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWG5baaaa@34E5@  et R MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbaaaa@34BE@  sont indépendants étant donné x MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWH4baaaa@34E8@  (ce qui est habituellement une condition nécessaire pour continuer, comme nous l’expliquons dans la section suivante). Cependant, l’expression de l’équation (3.2) nous indique que pour estimer la moyenne de y, MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWG5bGaaiilaaaa@3595@  il n’est pas absolument nécessaire d’ajuster le bon modèle de régression m(x). MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGTbGaaGPaVlaaiIcacaWH4bGaaG ykaiaac6caaaa@397C@  En fait, il suffit de s’assurer que le « résidu » z I MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWG6bWaaSbaaSqaaiaadMeaaeqaaa aa@35E0@  est autant non corrélé à W I π I MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGxbWaaSbaaSqaaiaadMeaaeqaaO GaeqiWda3aaSbaaSqaaiaadMeaaeqaaaaa@387E@  quand I MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGjbaaaa@34B5@  varie. Cependant, il est extrêmement important de reconnaître qu’il ne suffit pas d’assurer une corrélation nulle ou faible seulement dans les données observées, car Cov I ( W I π I , z I | R I =1) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaqGdbGaae4BaiaabAhadaWgaaWcba GaamysaaqabaGccaaMc8UaaGikaiaadEfadaWgaaWcbaGaamysaaqa baGccqaHapaCdaWgaaWcbaGaamysaaqabaGccaaISaGaaGjbVlaadQ hadaWgaaWcbaGaamysaaqabaGccaaMc8+aaqqabeaacaaMc8UaamOu amaaBaaaleaacaWGjbaabeaakiaaysW7cqGH9aqpcaaMe8UaaGymaa Gaay5bSdGaaGykaaaa@4ED4@  nous informe peu sur Cov I ( W I π I , z I | R I =0). MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaqGdbGaae4BaiaabAhadaWgaaWcba GaamysaaqabaGccaaIOaGaam4vamaaBaaaleaacaWGjbaabeaakiab ec8aWnaaBaaaleaacaWGjbaabeaakiaaiYcacaaMe8UaamOEamaaBa aaleaacaWGjbaabeaakiaaykW7daabbeqaaiaaykW7caWGsbWaaSba aSqaaiaadMeaaeqaaaGccaGLhWoacaaMe8Uaeyypa0JaaGjbVlaaic dacaaIPaGaaiOlaaaa@4DFA@  Dans la configuration de Wu (2022), notre capacité à extrapoler de R I =1 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbWaaSbaaSqaaiaadMeaaeqaaO GaaGjbVlabg2da9iaaysW7caaIXaaaaa@3A9D@  à R I =0 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbWaaSbaaSqaaiaadMeaaeqaaO GaaGjbVlabg2da9iaaysW7caaIWaaaaa@3A9C@  dépend de la disponibilité des données auxiliaires (indépendantes) indexées par R I * =1, MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbWaa0baaSqaaiaadMeaaeaaca GGQaaaaOGaaGjbVlabg2da9iaaysW7caaIXaGaaiilaaaa@3BFC@  ce qui nous permet d’observer certains x I MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWG4bWaaSbaaSqaaiaadMeaaeqaaa aa@35DE@  pour lesquels R I =0. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbWaaSbaaSqaaiaadMeaaeqaaO GaaGjbVlabg2da9iaaysW7caaIWaGaaiOlaaaa@3B4E@

La littérature montre les avantages présentés par la stratégie consistant à inclure des estimations de la propension comme prédicteur. Par exemple, Little et An (2004) ont inclus le logit de π ^ MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacuaHapaCgaqcaaaa@35B4@  dans leur modèle d’imputation et ils ont constaté que cette inclusion a amélioré la robustesse de la moyenne imputée par rapport à la spécification erronée du modèle d’imputation. Zhang et Little (2009) et Tan, Flannagan et Elliott (2019) ont mis au point cette méthode et ils l’ont améliorée davantage; ils ont utilisé l’expression « robuste au carré » pour souligner la robustesse accrue. Dans un article plus récent portant sur une stratégie similaire pour les échantillons non probabilistes, Liu et coll. (2021) ont montré qu’il était important d’inclure la propension estimée π ^ i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacuaHapaCgaqcamaaBaaaleaacaWGPb aabeaaaaa@36CE@  « comme prédicteur » dans m(x, π ^ ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGTbGaaGPaVlaaiIcacaWG4bGaaG ilaiaaysW7cuaHapaCgaqcaiaaiMcaaaa@3CD6@  (en utilisant la notation de la présente étude). De plus, dans la littérature sur l’estimation par la méthode du maximum de vraisemblance ciblée (EMVC) pour les modèles semi-paramétriques de traitement des données non probabilistes (van der Laan et Rubin, 2006; Luque-Fernandez, Schomaker, Rachet et Schnitzer, 2018) (voir aussi Scharfstein et coll., 1999; Tan, 2010), les variables R I / π ^ I MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaadaWcgaqaaiaadkfadaWgaaWcbaGaam ysaaqabaaakeaacaaMc8UafqiWdaNbaKaadaWgaaWcbaGaamysaaqa baaaaaaa@3A2A@  et (1 R I )/ (1 π ^ I ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaadaWcgaqaaiaaiIcacaaIXaGaaGjbVl abgkHiTiaaysW7caWGsbWaaSbaaSqaaiaadMeaaeqaaOGaaGykaiaa ykW7aeaacaaMc8UaaGikaiaaigdacaaMe8UaeyOeI0IaaGjbVlqbec 8aWzaajaWaaSbaaSqaaiaadMeaaeqaaOGaaGykaaaaaaa@480D@  sont appelées covariables intelligentes et sont utilisées dans les modèles de régression pour y I . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWG5bWaaSbaaSqaaiaadMeaaeqaaO GaaiOlaaaa@369B@  Les mises en œuvre et les théories de l’EMVC et celles de l’EMVC collaborative liée (van der Laan et Gruber, 2009 et 2010), sont mathématiquement plus impliquées que celles en contexte de population finie, comme nous le verrons plus bas, mais les résultats tirés des équations (3.2) et (3.3) peuvent nous permettre d’avoir des raisonnements intuitifs utiles sur la compréhension de l’essence de ces méthodes.


Date de modification :