Efficacité relative des méthodes fondées sur l’estimation par régression d’enquête assistée par un modèle : une étude par simulations
Section 5. Estimation selon un échantillonnage non probabiliste
Dans la section qui suit, nous étudions
l’effet du biais d’échantillonnage sur les estimateurs par la régression des
enquêtes selon un échantillonnage non probabiliste. À cette fin, nous avons
étudié deux types de biais d’échantillonnage qui sont peut-être présents dans
les échantillons non probabilistes. Plus particulièrement, nous avons considéré
un scénario dans lequel la probabilité de sélection ne dépend que des données
auxiliaires disponibles pour toutes les unités de la population, et un scénario
où la probabilité de sélection dépend de la variable d’intérêt de l’enquête.
Dans les deux scénarios, nous avons évalué le biais relatif absolu, pour chaque estimateur du
total. À l’instar de Chen, Valliant et Elliott (2018), nous traitons
l’échantillon non probabiliste comme un échantillon aléatoire simple et fixons
les poids de sondage à pour l’estimation du total car le processus de sélection
des échantillons non probabilistes est inconnu dans la pratique.
5.1 Les probabilités de sélection dépendent des données auxiliaires
Nous avons tiré des échantillons répétés en utilisant le même plan de sondage aléatoire simple stratifié que celui utilisé dans la section 4. Le tableau 5.1 présente le biais relatif absolu de chaque estimateur du montant total du crédit commercial demandé en supposant que lorsque l’échantillon est en fait sélectionné en utilisant un échantillonnage aléatoire stratifié disproportionné.
Comme prévu, l’estimateur de HT entièrement fondé sur le plan présente le biais le plus important, et ce biais ne diminue pas lorsque la taille de l’échantillon augmente. Le biais relatif absolu des estimateurs assistés par un modèle diminue lorsque la taille de l’échantillon augmente. L’estimateur ERG présente le biais le plus faible, en particulier pour les échantillons de petite taille. En outre, l’estimateur ERG est approximativement sans biais si les revenus sont inclus comme l’une des variables auxiliaires pour le calage. Cependant, si une sélection par étape de variables est utilisée, l’estimateur ERG n’est plus sans biais pour les échantillons de petite taille. En revanche, si les revenus ne sont pas inclus comme variable de calage, l’estimateur ERG est légèrement biaisé. Les estimateurs fondés sur la méthode LASSO et, dans une moindre mesure, l’estimateur par arbre de régression, présentent un biais lié à un petit échantillon pour lorsque les revenus sont correctement inclus comme variable auxiliaire. Ceci est particulièrement évident pour les estimateurs fondés sur la méthode LASSO standard qui ne comportent pas de calage sur des totaux de population connus. Pour égal à 500 ou à 1 000, le fait d’inclure les revenus comme variable auxiliaire diminue considérablement le biais pour l’arbre de régression et les estimateurs fondés sur la méthode LASSO avec calage, mais ne diminue que légèrement le biais pour les estimateurs fondés sur la méthode LASSO sans calage. Cela indique que l’étape supplémentaire de calage est importante pour diminuer l’effet du biais d’échantillonnage, surtout si la taille de l’échantillon est petite.
Revenus inclus | Revenus non inclus | |||||
---|---|---|---|---|---|---|
200 | 500 | 1 000 | 200 | 500 | 1 000 | |
ERG | 0,31 | 0,06 | 0,06 | 4,84 | 5,12 | 4,71 |
FSTEP | 2,67 | 0,44 | 0,06 | 9,20 | 5,18 | 4,92 |
ARBRE | 4,15 | 1,04 | 0,50 | 17,40 | 10,20 | 8,94 |
LASSO (unidirectionnel) | 17,42 | 5,10 | 2,32 | 16,32 | 8,88 | 6,49 |
CLASSO (unidirectionnel) | 7,99 | 0,83 | 0,20 | 9,04 | 5,22 | 4,59 |
LASSO (bidirectionnel) | 25,36 | 14,28 | 8,40 | 26,31 | 15,16 | 9,89 |
CLASSO (bidirectionnel) | 10,72 | 1,44 | 1,02 | 14,19 | 5,56 | 3,84 |
ALASSO | 14,95 | 5,63 | 3,00 | 14,35 | 8,64 | 6,51 |
CALASSO | 9,63 | 2,54 | 1,25 | 9,27 | 5,77 | 4,92 |
HT | 49,45 | 48,84 | 48,81 | 49,08 | 49,29 | 48,60 |
Ces résultats indiquent que lorsque la probabilité de sélection dépend d’une variable auxiliaire connue, son inclusion dans le modèle de travail de l’estimateur ERG diminue efficacement l’effet du biais d’échantillonnage. Ce n’était pas le cas pour les estimateurs assistés par un modèle qui reposaient sur une sélection de variables. Le fait d’effectuer une sélection de variables peut augmenter le biais, car les variables auxiliaires qui sont prédictives en matière de probabilité de sélection peuvent ne pas être sélectionnées et correctement prises en compte. Les estimateurs fondés sur la méthode LASSO peuvent être construits de telle sorte que les variables spécifiées par l’utilisateur soient toujours incluses dans le modèle de régression de travail. Ces variables spécifiées par l’utilisateur peuvent être ajoutées à dans l’équation (2.5) pour forcer le calage sur les totaux de population correspondants. Malheureusement, le mécanisme de sélection sous-jacent est inconnu dans la pratique et, par conséquent, il est difficile de déterminer correctement les variables qui ont une incidence sur la probabilité de sélection.
5.2 Les probabilités de sélection dépendent de la variable de l’étude
Ensuite, nous avons tiré des échantillons répétés en utilisant l’échantillonnage de Poisson où les probabilités d’échantillonnage dépendent de la variable d’intérêt de l’enquête. Nous supposons que les probabilités d’échantillonnage de Poisson sont données par :
où est le montant du crédit commercial demandé en millions de dollars, et Les valeurs de l’ordonnée à l’origine, ont été choisies de manière à obtenir des tailles d’échantillon d’environ 200, 500 et 1 000 unités, en moyenne pour les échantillons simulés. Dans le cadre de ce plan de sondage, les unités dont les montants demandés pour le crédit commercial sont plus importants ont une probabilité plus élevée d’être échantillonnées et sont donc surreprésentées. Le tableau 5.2 présente le biais relatif absolu de chaque estimateur du montant total du crédit commercial demandé en supposant que lorsque l’échantillon est sélectionné en utilisant l’échantillonnage de Poisson informatif ci-dessus. Dans le cas présent, tous les estimateurs sont fortement biaisés, car le modèle de population ne tient pas en raison de l’échantillonnage informatif. L’ampleur du biais est très similaire d’un estimateur à l’autre et ne diminue pas sensiblement lorsque la taille de l’échantillon augmente. L’inclusion ou l’exclusion des revenus en tant que variable auxiliaire n’a pas d’incidence sur le biais.
Revenus inclus | Revenus non inclus | |||||
---|---|---|---|---|---|---|
-3,8 | -2,85 | -2,1 | -3,8 | -2,85 | -2,1 | |
ERG | 23,53 | 22,27 | 20,45 | 24,74 | 22,91 | 21,21 |
FSTEP | 24,54 | 22,55 | 20,58 | 25,16 | 23,24 | 21,15 |
ARBRE | 24,07 | 22,73 | 20,15 | 24,93 | 22,47 | 20,55 |
LASSO (unidirectionnel) | 24,29 | 22,73 | 20,65 | 25,45 | 23,29 | 21,38 |
CLASSO (unidirectionnel) | 23,02 | 22,30 | 20,47 | 24,74 | 22,99 | 21,23 |
LASSO (bidirectionnel) | 23,15 | 22,06 | 20,17 | 24,66 | 22,73 | 20,62 |
CLASSO (bidirectionnel) | 20,11 | 20,18 | 19,01 | 22,62 | 21,63 | 19,98 |
ALASSO | 24,44 | 22,72 | 20,66 | 25,50 | 23,21 | 21,36 |
CALASSO | 23,91 | 22,46 | 20,53 | 25,10 | 23,01 | 21,25 |
HT | 29,12 | 27,95 | 25,57 | 29,36 | 27,53 | 25,45 |
- Date de modification :