Commentaires à propos de l’article « Inférence statistique avec des échantillons d’enquête non probabiliste » : La miniaturisation de la corrélation due à un défaut des données : une stratégie polyvalente de traitement des échantillons non probabilistes
Section 2. Une identité déterministe de population finie pour l’erreur réelle

Pour démontrer la richesse du cadre de population finie, considérons l’estimation de la moyenne de la population, indiquée par G ¯ , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaaceWGhbGbaebacaGGSaaaaa@357B@  de { G i =G( X i ):iN}, MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaaI7bGaam4ramaaBaaaleaacaWGPb aabeaakiaaysW7cqGH9aqpcaaMe8Uaam4raiaaykW7caaIOaGaamiw amaaBaaaleaacaWGPbaabeaakiaaiMcacaaI6aGaaGjbVlaaykW7ca WGPbGaaGjbVlabgIGiolaaysW7tCvAUfKttLearyat1nwAKfgidfgB SL2zYfgCOLhaiqGacqWFobGtcaaMc8UaaGyFaiaacYcaaaa@57F7@  où N={1,,N} MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaatCvAUfKttLearyat1nwAKfgidfgBSL 2zYfgCOLhaiqGacqWFobGtcaaMe8Uaeyypa0JaaGjbVlaaiUhacaaI XaGaaGilaiaaysW7cqWIMaYscaaISaGaaGjbVlaad6eacaaI9baaaa@4BDD@  indexe une population finie, et les X i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGybWaaSbaaSqaaiaadMgaaeqaaa aa@35DE@  sont des données recueillies sur une personne i. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGPbGaaiOlaaaa@3587@  Pour chaque i, MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGPbGaaiilaaaa@3585@  supposons que R i =1 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbWaaSbaaSqaaiaadMgaaeqaaO GaaGjbVlabg2da9iaaysW7caaIXaaaaa@3ABD@  si G i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGhbWaaSbaaSqaaiaadMgaaeqaaa aa@35CD@  (ou plutôt X i ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGybWaaSbaaSqaaiaadMgaaeqaaO Gaaiykaaaa@3695@  est enregistré dans notre échantillon, et que R i =0 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbWaaSbaaSqaaiaadMgaaeqaaO GaaGjbVlabg2da9iaaysW7caaIWaaaaa@3ABC@  sinon. La taille de l’échantillon est alors n R = i=1 N R i . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGUbWaaSbaaSqaaiaadkfaaeqaaO GaaGjbVlabg2da9iaaysW7daaeWaqabSqaaiaadMgacaaI9aGaaGym aaqaaiaad6eaa0GaeyyeIuoakiaaykW7caWGsbWaaSbaaSqaaiaadM gaaeqaaOGaaiOlaaaa@438F@  Nous insistons sur le fait qu’il s’agit d’un indicateur global, qui peut (et devrait) être décomposé en R i = r i (1) ,, r i (J) , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbWaaSbaaSqaaiaadMgaaeqaaO GaaGjbVlabg2da9iaaysW7caWGYbWaa0baaSqaaiaadMgaaeaacaaI OaGaaGymaiaaiMcaaaGccaGGSaGaaGjbVlablAciljaacYcacaaMe8 UaamOCamaaDaaaleaacaWGPbaabaGaaGikaiaadQeacaaIPaaaaOGa aiilaaaa@48DA@  quand la collecte des données consiste en J MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGkbaaaa@34B6@  étapes (par exemple r i (1) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGYbWaa0baaSqaaiaadMgaaeaaca aIOaGaaGymaiaaiMcaaaaaaa@3819@  indique si la i e MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGPbWaaWbaaSqabeaacaqGLbaaaa aa@35EA@  personne a été échantillonnée et r i (2) , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGYbWaa0baaSqaaiaadMgaaeaaca aIOaGaaGOmaiaaiMcaaaGccaGGSaaaaa@38D4@  si la personne a répondu ou non une fois qu’elle a été échantillonnée).

Supposons que { W i ,iS} MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaaI7bGaam4vamaaBaaaleaacaWGPb aabeaakiaaiYcacaaMe8UaamyAaiaaysW7cqGHiiIZcaaMe8Uaam4u aiaai2haaaa@409A@  est un ensemble de poids à déterminer où l’indice est paramétré à S={i: R i =1}, MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGtbGaaGjbVlabg2da9iaaysW7ca aI7bGaamyAaiaaiQdacaaMe8UaamOuamaaBaaaleaacaWGPbaabeaa kiaaysW7cqGH9aqpcaaMe8UaaGymaiaai2hacaGGSaaaaa@45B0@  de sorte que iS W i >0. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaadaaeqaqabSqaaiaadMgacaaMc8Uaey icI4SaaGPaVlaadofaaeqaniabggHiLdGccaaMc8Uaam4vamaaBaaa leaacaWGPbaabeaakiaaysW7cqGH+aGpcaaMe8UaaGimaiaac6caaa a@454E@  Supposons que G ¯ W MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaaceWGhbGbaebadaWgaaWcbaGaam4vaa qabaaaaa@35D3@  est la moyenne pondérée de l’échantillon, qu’on peut exprimer de trois façons :

G ¯ W = iS W i G i iS W i = i=1 N R i W i G i i=1 N R i W i = E I ( R ˜ I G I ) E I ( R ˜ I ) ,(2.1) MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8srps0l bbf9q8WrFfeuY=Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0R Yxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGa caGaaeqabaGabiWadaaakeaaceWGhbGbaebadaWgaaWcbaGaam4vaa qabaGccaaMe8UaaGjbVlabg2da9iaaysW7caaMe8+aaSaaaeaadaae qaqaaiaaykW7caWGxbWaaSbaaSqaaiaadMgaaeqaaOGaam4ramaaBa aaleaacaWGPbaabeaaaeaacaWGPbGaaGPaVlabgIGiolaaykW7caWG tbaabeqdcqGHris5aaGcbaWaaabeaeaacaaMc8Uaam4vamaaBaaale aacaWGPbaabeaaaeaacaWGPbGaaGPaVlabgIGiolaaykW7caWGtbaa beqdcqGHris5aaaakiaaysW7caaMe8Uaeyypa0JaaGjbVlaaysW7da WcaaqaamaaqadabaGaaGPaVlaadkfadaWgaaWcbaGaamyAaaqabaGc caWGxbWaaSbaaSqaaiaadMgaaeqaaOGaam4ramaaBaaaleaacaWGPb aabeaaaeaacaWGPbGaaGPaVlaai2dacaaMc8UaaGymaaqaaiaad6ea a0GaeyyeIuoaaOqaamaaqadabaGaaGPaVlaadkfadaWgaaWcbaGaam yAaaqabaGccaWGxbWaaSbaaSqaaiaadMgaaeqaaaqaaiaadMgacaaM c8UaaGypaiaaykW7caaIXaaabaGaamOtaaqdcqGHris5aaaakiaays W7caaMe8Uaeyypa0JaaGjbVlaaysW7daWcaaqaaiaabweadaWgaaWc baGaamysaaqabaGccaaMc8UaaGikaiqadkfagaacamaaBaaaleaaca WGjbaabeaakiaadEeadaWgaaWcbaGaamysaaqabaGccaaIPaaabaGa aeyramaaBaaaleaacaWGjbaabeaakiaaykW7caaIOaGabmOuayaaia WaaSbaaSqaaiaadMeaaeqaaOGaaGykaaaacaaISaGaaGzbVlaaywW7 caaMf8UaaGzbVlaaywW7caGGOaGaaGOmaiaac6cacaaIXaGaaiykaa aa@9BC0@

R ˜ I = R I W I , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaaceWGsbGbaGaadaWgaaWcbaGaamysaa qabaGccaaMe8Uaeyypa0JaaGjbVlaadkfadaWgaaWcbaGaamysaaqa baGccaWGxbWaaSbaaSqaaiaadMeaaeqaaOGaaiilaaaa@3E5C@  et E I MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaqGfbWaaSbaaSqaaiaadMeaaeqaaa aa@35A9@  est prise par rapport à la distribution uniforme de l’indice paramétré N. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaatCvAUfKttLearyat1nwAKfgidfgBSL 2zYfgCOLhaiqGacqWFobGtqaaaaaaaaaWdbiaac6caaaa@3F4D@  La première expression dans l’équation (2.1) définit simplement une moyenne pondérée de l’échantillon. À l’aide de R i , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbWaaSbaaSqaaiaadMgaaeqaaO Gaaiilaaaa@3692@  la deuxième expression permet de transformer les moyennes de l’échantillon en moyennes de population finie. Cette nouvelle expression banale est fondamentale parce qu’elle explique le rôle de R i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbWaaSbaaSqaaiaadMgaaeqaaa aa@35D8@  dans l’influence sur le comportement de G ¯ W MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaaceWGhbGbaebadaWgaaWcbaGaam4vaa qabaaaaa@35D3@  en tant qu’estimateur de G ¯ . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaaceWGhbGbaebacaGGUaaaaa@357D@  La troisième expression révèle une probabilité divine au moyen de I, MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGjbGaaiilaaaa@3565@  la variable de l’indice de population finie (IPF), grâce au fait que le calcul de la moyenne revient à prendre en compte l’espérance d’un indice aléatoire uniformément distribué I. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGjbGaaiOlaaaa@3567@  Tous les moments de population finie peuvent alors être exprimés au moyen de E I . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaqGfbWaaSbaaSqaaiaadMeaaeqaaO GaaiOlaaaa@3665@

En particulier, nous pouvons exprimer l’erreur réelle de G ¯ W MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaaceWGhbGbaebadaWgaaWcbaGaam4vaa qabaaaaa@35D3@  par l’identité suivante, dont la première expression remonte à Hartley et Ross (1954), qui l’ont utilisée pour exprimer les biais dans des estimateurs par le ratio. La deuxième expression a été donnée dans Meng (2018), mais elle comportait une expression légèrement différente (mais équivalente) :

G ¯ W G ¯ = Cov I ( R ˜ I , G I ) E I [ R ˜ I ] = ρ R ˜ ,G × N n W n W × σ G .(2.2) MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaaceWGhbGbaebadaWgaaWcbaGaam4vaa qabaGccaaMe8UaeyOeI0IaaGjbVlqadEeagaqeaiaaysW7caaMe8Ua eyypa0JaaGjbVlaaysW7daWcaaqaaiaaboeacaqGVbGaaeODamaaBa aaleaacaWGjbaabeaakiaaykW7caaIOaGabmOuayaaiaWaaSbaaSqa aiaadMeaaeqaaOGaaGilaiaaysW7caWGhbWaaSbaaSqaaiaadMeaae qaaOGaaGykaaqaaiaabweadaWgaaWcbaGaamysaaqabaGccaaMc8Ua aG4waiqadkfagaacamaaBaaaleaacaWGjbaabeaakiaai2faaaGaaG jbVlaaysW7cqGH9aqpcaaMe8UaaGjbVlabeg8aYnaaBaaaleaaceWG sbGbaGaacaGGSaGaaGjbVlaadEeaaeqaaOGaaGjbVlaaysW7cqGHxd aTcaaMe8UaaGjbVpaakaaabaWaaSaaaeaacaaMc8UaamOtaiaaysW7 cqGHsislcaaMe8UaamOBamaaBaaaleaacaWGxbaabeaaaOqaaiaad6 gadaWgaaWcbaGaam4vaaqabaaaaaqabaGccaaMe8UaaGjbVlabgEna 0kaaysW7caaMe8Uaeq4Wdm3aaSbaaSqaaiaadEeaaeqaaOGaaGOlai aaywW7caaMf8UaaGzbVlaaywW7caaMf8UaaiikaiaaikdacaGGUaGa aGOmaiaacMcaaaa@8CCA@

Dans cette équation, ρ R ˜ ,G = Corr I ( R ˜ I , G I ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacqaHbpGCdaWgaaWcbaGabmOuayaaia GaaiilaiaaykW7caWGhbaabeaakiaaysW7cqGH9aqpcaaMe8Uaae4q aiaab+gacaqGYbGaaeOCamaaBaaaleaacaWGjbaabeaakiaaykW7ca aIOaGabmOuayaaiaWaaSbaaSqaaiaadMeaaeqaaOGaaGilaiaaysW7 caWGhbWaaSbaaSqaaiaadMeaaeqaaOGaaGykaaaa@4B7D@  est la corrélation de population finie entre R ˜ I MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaaceWGsbGbaGaadaWgaaWcbaGaamysaa qabaaaaa@35C7@  et G I , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGhbWaaSbaaSqaaiaadMeaaeqaaO Gaaiilaaaa@3667@   σ G 2 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacqaHdpWCdaqhaaWcbaGaam4raaqaai aaikdaaaaaaa@375F@  est la variance de la population finie de G I MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGhbWaaSbaaSqaaiaadMeaaeqaaa aa@35AD@  et n W MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGUbWaaSbaaSqaaiaadEfaaeqaaa aa@35E2@  est la taille d’échantillon efficace en raison de l’utilisation des poids (Kish, 1965),

n W = n R 1+ CV W 2 ,(2.3) MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGUbWaaSbaaSqaaiaadEfaaeqaaO GaaGjbVlaaysW7cqGH9aqpcaaMe8UaaGjbVpaalaaabaGaamOBamaa BaaaleaacaWGsbaabeaaaOqaaiaaigdacaaMe8Uaey4kaSIaaGjbVl aaboeacaqGwbWaa0baaSqaaiaadEfaaeaacaaIYaaaaaaakiaaiYca caaMf8UaaGzbVlaaywW7caaMf8UaaGzbVlaacIcacaaIYaGaaiOlai aaiodacaGGPaaaaa@535A@

CV W MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaqGdbGaaeOvamaaBaaaleaacaWGxb aabeaaaaa@368E@  est le coefficient de variation (c’est-à-dire l’écart-type ou la moyenne) de { W i ,iS}. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaaI7bGaam4vamaaBaaaleaacaWGPb aabeaakiaaiYcacaaMe8UaamyAaiaaysW7cqGHiiIZcaaMe8Uaam4u aiaai2hacaGGUaaaaa@414C@

L’expression de l’équation (2.2) est une identité algébrique parce qu’elle se vérifie pour toute instance de { ( G i , R i W i ),iN }. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaadaGadeqaaiaaiIcacaWGhbWaaSbaaS qaaiaadMgaaeqaaOGaaGilaiaaysW7caWGsbWaaSbaaSqaaiaadMga aeqaaOGaam4vamaaBaaaleaacaWGPbaabeaakiaaiMcacaaISaGaaG jbVlaadMgacaaMe8UaeyicI4SaaGjbVpXvP5wqonvsaeHbmv3yPrwy GmuySXwANjxyWHwEaGabciab=5eaojaayIW7aiaawUhacaGL9baaca GGUaaaaa@5452@  Ainsi, aucune hypothèse de modèle n’est imposée, pas même l’hypothèse que R MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbaaaa@34BE@  (ou toute quantité) est aléatoire, ce qui rappelle le commentaire de Mary Thompson cité dans l’étude de Wu (2022), selon lequel « le fait que l’indicateur d’inclusion dans l’échantillon R MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGsbaaaa@34BE@  est une variable aléatoire est en soi une hypothèse ». La seule exigence est que la valeur de G i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGhbWaaSbaaSqaaiaadMgaaeqaaa aa@35CD@  enregistrée soit identique à celle de G i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGhbWaaSbaaSqaaiaadMgaaeqaaa aa@35CD@  dans la population cible. (Il faut mentionner toutefois que cette exigence comporte deux éléments : 1) il n’y a pas de surdénombrement, c’est-à-dire que chaque personne dans l’échantillon appartient à la population cible, par exemple aucun électeur non admissible n’est sondé quand la population cible est celle des électeurs admissibles; 2) il n’y a pas d’erreur de mesure. Il peut y avoir des extensions de cas comportant des erreurs de mesure, mais elles ne sont pas examinées dans la présente étude.) Quand nous utilisons des poids égaux, les trois facteurs du membre de droite de l’équation (2.2) représentent, respectivement (de gauche à droite), le défaut des données, l’insuffisance des données et la difficulté du problème, comme l’explique Meng (2018) et comme l’illustrent en détail Bradley, Kuriwaki, Isakov, Sejdinovic, Meng et Flaxman (2021) dans le contexte des enquêtes sur la vaccination contre la COVID-19.

En particulier, quand tous les poids sont égaux, ρ R ˜ ,G MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacqaHbpGCdaWgaaWcbaGabmOuayaaia GaaiilaiaaykW7caWGhbaabeaaaaa@39C0@  est appelée corrélation due à un défaut des données (cdd) dans Meng (2018) parce qu’elle permet de mesurer le manque de représentativité de l’échantillon en saisissant la dépendance de l’indicateur d’inclusion ou d’enregistrement aux caractéristiques : plus la dépendance est élevée, plus la moyenne de l’échantillon est biaisée quand il faut estimer les moyennes de population. Quand l’on utilise les stratégies de base de l’échantillonnage probabiliste ou de la pondération de probabilité inverse, la cdd est nulle en moyenne parce que E( W i R i )=1, MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaqGfbGaaGPaVlaaiIcacaWGxbWaaS baaSqaaiaadMgaaeqaaOGaamOuamaaBaaaleaacaWGPbaabeaakiaa iMcacaaMe8Uaeyypa0JaaGjbVlaaigdacaGGSaaaaa@4125@  et elle est de l’ordre O p ( N 1/2 ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGpbWaaSbaaSqaaiaadchaaeqaaO GaaGPaVlaaiIcacaWGobWaaWbaaSqabeaacqGHsisldaWcgaqaaiaa igdaaeaacaaIYaaaaaaakiaaiMcaaaa@3C5A@  parce qu’il s’agit essentiellement d’une moyenne de N MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGobaaaa@34BA@  termes indépendants (Meng, 2018). Notre objectif général est donc de ramener la cdd à O p ( N 1/2 ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGpbWaaSbaaSqaaiaadchaaeqaaO GaaGPaVlaaiIcacaWGobWaaWbaaSqabeaacqGHsisldaWcgaqaaiaa igdaaeaacaaIYaaaaaaakiaaiMcaaaa@3C5A@  pour les échantillons non probabilistes, ce que nous appellerons « miniaturiser la cdd » parce que N 1/2 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGobWaaWbaaSqabeaacqGHsislda WcgaqaaiaaigdaaeaacaaIYaaaaaaaaaa@3761@  est généralement un nombre minuscule dans la pratique.

Quand nous utilisons des poids, le premier terme ρ R ˜ ,G MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacqaHbpGCdaWgaaWcbaGabmOuayaaia GaaiilaiaaysW7caWGhbaabeaaaaa@39C2@  saisit le défaut des données qui existe toujours après l’ajustement de la pondération, puisqu’aucun poids n’est parfait en pratique. L’identité dans l’équation (2.2) montre l’incidence des poids sur la qualité et la quantité des données. L’incidence sur la taille d’échantillon efficace nominale n W MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGUbWaaSbaaSqaaiaadEfaaeqaaa aa@35E2@  n’est jamais positive, car n W n R MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGUbWaaSbaaSqaaiaadEfaaeqaaO GaaGjbVlabgsMiJkaaysW7caWGUbWaaSbaaSqaaiaadkfaaeqaaaaa @3CB1@  comme on peut le voir dans l’équation (2.3). Par ailleurs, l’exactitude de l’équation (2.3) révèle qu’en fait, cette expression bien connue n’est pas une approximation (ce qui est souvent attribué à Kish, 1965), mais une formule exacte de réduction de la taille de l’échantillon en raison de la pondération si la pondération n’a pas d’incidence sur la cdd. Cependant, la pondération peut avoir une incidence positive importante sur la réduction de l’erreur globale quand on choisit judicieusement des poids pour diminuer considérablement la cdd, bien qu’apparemment cela se fasse au prix de n W < n R . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGUbWaaSbaaSqaaiaadEfaaeqaaO GaaGjbVlabgYda8iaaysW7caWGUbWaaSbaaSqaaiaadkfaaeqaaOGa aiOlaaaa@3CBC@  Bien entendu, c’est exactement ce que vise le cadre de quasi-randomisation dont il est question ci-dessous. Plus important encore, l’équation (2.2) donne un aperçu unifié de la variété des méthodes examinées dans l’étude de Wu (2022), notamment une explication intuitive de la propriété doublement robuste, qui fait l’objet d’une attention accrue aux fins d’intégration des sources de données, concernant à la fois des échantillons probabilistes et non probabilistes (par exemple Yang, Kim et Song, 2020).

En effet, Zhang (2019, section 3.1) a utilisé la première expression dans l’équation (2.2) pour définir une hypothèse de non-informativité asymptotique non paramétrique unifiée, qui exige que le numérateur Cov I ( R ˜ I , G I ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaqGdbGaae4BaiaabAhadaWgaaWcba GaamysaaqabaGccaaMc8UaaGikaiqadkfagaacamaaBaaaleaacaWG jbaabeaakiaaiYcacaaMe8Uaam4ramaaBaaaleaacaWGjbaabeaaki aaiMcaaaa@4089@  passe à zéro, tout en gardant le dénominateur E I [ R ˜ I ] MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaqGfbWaaSbaaSqaaiaadMeaaeqaaO GaaGPaVlaaiUfaceWGsbGbaGaadaWgaaWcbaGaamysaaqabaGccaaI Dbaaaa@3AF4@  positif, quand N. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9G8qrpq0xc9fs0xc9q8qqaqFn0dXdir=xcv k9pIe9q8qqaq=dir=f0=yqaqVeLsFr0=vr0=vr0db8meaabaqaciGa caGaaeqabaGaaiaadaaakeaacaWGobGaaGjbVlabgkziUkaaysW7cq GHEisPcaGGUaaaaa@3BE4@  Cette unification a permis à Zhang (2019) d’évaluer la méthode de quasi-randomisation et la modélisation par la régression au moyen d’un critère commun. Comme le montre la section 3, le cadre de la cdd fait écho à cette unification. La section 4 met plutôt l’accent sur le message général de Zhang (2019). La section 5 traite d’un autre avantage simple de la formulation de la cdd qui fournit une explication immédiate de la célèbre double robustesse. La section 6 aborde quant à elle le domaine beaucoup plus difficile de l‘élaboration d’un sous-échantillon plus représentatif à partir d’un grand échantillon non représentatif, soit un compromis précieux, puisque la qualité des données est beaucoup plus importante que la quantité (Meng, 2018), comme nous le voyons brièvement ci-dessous.


Date de modification :