Efficacité relative des méthodes fondées sur l’estimation par régression d’enquête assistée par un modèle : une étude par simulations
Section 5. Estimation selon un échantillonnage non probabiliste

Table des matières

Dans la section qui suit, nous étudions l’effet du biais d’échantillonnage sur les estimateurs par la régression des enquêtes selon un échantillonnage non probabiliste. À cette fin, nous avons étudié deux types de biais d’échantillonnage qui sont peut-être présents dans les échantillons non probabilistes. Plus particulièrement, nous avons considéré un scénario dans lequel la probabilité de sélection ne dépend que des données auxiliaires disponibles pour toutes les unités de la population, et un scénario où la probabilité de sélection dépend de la variable d’intérêt de l’enquête. Dans les deux scénarios, nous avons évalué le biais relatif absolu,

| {\hat{t}}_{y} - t_{y} | / t_{y},

pour chaque estimateur du total. À l’instar de Chen, Valliant et Elliott (2018), nous traitons l’échantillon non probabiliste comme un échantillon aléatoire simple et fixons les poids de sondage à

d_{i} = N / n

pour l’estimation du total

t_{y},

car le processus de sélection des échantillons non probabilistes est inconnu dans la pratique.

5.1 Les probabilités de sélection dépendent des données auxiliaires

Nous avons tiré des échantillons répétés en utilisant le même plan de sondage aléatoire simple stratifié que celui utilisé dans la section 4. Le tableau 5.1 présente le biais relatif absolu de chaque estimateur du montant total du crédit commercial demandé en supposant que $d_{i} = N / n,$ lorsque l’échantillon est en fait sélectionné en utilisant un échantillonnage aléatoire stratifié disproportionné.

Comme prévu, l’estimateur de HT entièrement fondé sur le plan présente le biais le plus important, et ce biais ne diminue pas lorsque la taille de l’échantillon augmente. Le biais relatif absolu des estimateurs assistés par un modèle diminue lorsque la taille de l’échantillon $n$ augmente. L’estimateur ERG présente le biais le plus faible, en particulier pour les échantillons de petite taille. En outre, l’estimateur ERG est approximativement sans biais si les revenus sont inclus comme l’une des variables auxiliaires pour le calage. Cependant, si une sélection par étape de variables est utilisée, l’estimateur ERG n’est plus sans biais pour les échantillons de petite taille. En revanche, si les revenus ne sont pas inclus comme variable de calage, l’estimateur ERG est légèrement biaisé. Les estimateurs fondés sur la méthode LASSO et, dans une moindre mesure, l’estimateur par arbre de régression, présentent un biais lié à un petit échantillon pour $n = 200$ lorsque les revenus sont correctement inclus comme variable auxiliaire. Ceci est particulièrement évident pour les estimateurs fondés sur la méthode LASSO standard qui ne comportent pas de calage sur des totaux de population connus. Pour $n$ égal à 500 ou à 1 000, le fait d’inclure les revenus comme variable auxiliaire diminue considérablement le biais pour l’arbre de régression et les estimateurs fondés sur la méthode LASSO avec calage, mais ne diminue que légèrement le biais pour les estimateurs fondés sur la méthode LASSO sans calage. Cela indique que l’étape supplémentaire de calage est importante pour diminuer l’effet du biais d’échantillonnage, surtout si la taille de l’échantillon est petite.

Tableau 5.1
Pourcentage de biais relatif absolu de chaque estimateur sous échantillonnage stratifié, revenus inclus et revenus non inclus comme variable auxiliaire
Sommaire du tableau
Le tableau montre les résultats de Pourcentage de biais relatif absolu de chaque estimateur sous échantillonnage stratifié Revenus inclus et Revenus non inclus(figurant comme en-tête de colonne).
	$n =$ 200	$n =$ 500	$n =$ 1 000	$n =$ 200	$n =$ 500	$n =$ 1 000
	Revenus inclus			Revenus non inclus
ERG	0,31	0,06	0,06	4,84	5,12	4,71
FSTEP	2,67	0,44	0,06	9,20	5,18	4,92
ARBRE	4,15	1,04	0,50	17,40	10,20	8,94
LASSO (unidirectionnel)	17,42	5,10	2,32	16,32	8,88	6,49
CLASSO (unidirectionnel)	7,99	0,83	0,20	9,04	5,22	4,59
LASSO (bidirectionnel)	25,36	14,28	8,40	26,31	15,16	9,89
CLASSO (bidirectionnel)	10,72	1,44	1,02	14,19	5,56	3,84
ALASSO	14,95	5,63	3,00	14,35	8,64	6,51
CALASSO	9,63	2,54	1,25	9,27	5,77	4,92
HT	49,45	48,84	48,81	49,08	49,29	48,60

Ces résultats indiquent que lorsque la probabilité de sélection dépend d’une variable auxiliaire connue, son inclusion dans le modèle de travail de l’estimateur ERG diminue efficacement l’effet du biais d’échantillonnage. Ce n’était pas le cas pour les estimateurs assistés par un modèle qui reposaient sur une sélection de variables. Le fait d’effectuer une sélection de variables peut augmenter le biais, car les variables auxiliaires qui sont prédictives en matière de probabilité de sélection peuvent ne pas être sélectionnées et correctement prises en compte. Les estimateurs fondés sur la méthode LASSO peuvent être construits de telle sorte que les variables spécifiées par l’utilisateur soient toujours incluses dans le modèle de régression de travail. Ces variables spécifiées par l’utilisateur peuvent être ajoutées à $x_{i}^{*}$ dans l’équation (2.5) pour forcer le calage sur les totaux de population correspondants. Malheureusement, le mécanisme de sélection sous-jacent est inconnu dans la pratique et, par conséquent, il est difficile de déterminer correctement les variables qui ont une incidence sur la probabilité de sélection.

5.2 Les probabilités de sélection dépendent de la variable de l’étude

Ensuite, nous avons tiré des échantillons répétés en utilisant l’échantillonnage de Poisson où les probabilités d’échantillonnage dépendent de la variable d’intérêt de l’enquête. Nous supposons que les probabilités d’échantillonnage de Poisson sont données par :

$logit (p_{i}) = β_{0} + β_{1} y_{i}$

où $y_{i}$ est le montant du crédit commercial demandé en millions de dollars, $β_{1} = 0,5$ et $β_{0} = - 3,80; - 2,85; - 2,10 .$ Les valeurs de l’ordonnée à l’origine, $β_{0},$ ont été choisies de manière à obtenir des tailles d’échantillon d’environ 200, 500 et 1 000 unités, en moyenne pour les échantillons simulés. Dans le cadre de ce plan de sondage, les unités dont les montants demandés pour le crédit commercial sont plus importants ont une probabilité plus élevée d’être échantillonnées et sont donc surreprésentées. Le tableau 5.2 présente le biais relatif absolu de chaque estimateur du montant total du crédit commercial demandé en supposant que $d_{i} = N / n,$ lorsque l’échantillon est sélectionné en utilisant l’échantillonnage de Poisson informatif ci-dessus. Dans le cas présent, tous les estimateurs sont fortement biaisés, car le modèle de population ne tient pas en raison de l’échantillonnage informatif. L’ampleur du biais est très similaire d’un estimateur à l’autre et ne diminue pas sensiblement lorsque la taille de l’échantillon augmente. L’inclusion ou l’exclusion des revenus en tant que variable auxiliaire n’a pas d’incidence sur le biais.

Tableau 5.2
Pourcentage de biais relatif absolu de chaque estimateur dans le cadre d’un échantillonnage de Poisson, revenus inclus et revenus non inclus comme variable auxiliaire
Sommaire du tableau
Le tableau montre les résultats de Pourcentage de biais relatif absolu de chaque estimateur dans le cadre d’un échantillonnage de Poisson Revenus inclus et Revenus non inclus(figurant comme en-tête de colonne).
	$β_{0} =$ -3,8	$β_{0} =$ -2,85	$β_{0} =$ -2,1	$β_{0} =$ -3,8	$β_{0} =$ -2,85	$β_{0} =$ -2,1
	Revenus inclus			Revenus non inclus
ERG	23,53	22,27	20,45	24,74	22,91	21,21
FSTEP	24,54	22,55	20,58	25,16	23,24	21,15
ARBRE	24,07	22,73	20,15	24,93	22,47	20,55
LASSO (unidirectionnel)	24,29	22,73	20,65	25,45	23,29	21,38
CLASSO (unidirectionnel)	23,02	22,30	20,47	24,74	22,99	21,23
LASSO (bidirectionnel)	23,15	22,06	20,17	24,66	22,73	20,62
CLASSO (bidirectionnel)	20,11	20,18	19,01	22,62	21,63	19,98
ALASSO	24,44	22,72	20,66	25,50	23,21	21,36
CALASSO	23,91	22,46	20,53	25,10	23,01	21,25
HT	29,12	27,95	25,57	29,36	27,53	25,45

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : semi-annuel

Ottawa

Date de modification :: 2022-06-21

Sélection de la langue

Recherche et menus

Recherche

Efficacité relative des méthodes fondées sur l’estimation par régression d’enquête assistée par un modèle : une étude par simulations
Section 5. Estimation selon un échantillonnage non probabiliste

5.1 Les probabilités de sélection dépendent des données auxiliaires

5.2 Les probabilités de sélection dépendent de la variable de l’étude

Efficacité relative des méthodes fondées sur l’estimation par régression d’enquête assistée par un modèle : une étude par simulations Section 5. Estimation selon un échantillonnage non probabiliste

5.1 Les probabilités de sélection dépendent des données auxiliaires

5.2 Les probabilités de sélection dépendent de la variable de l’étude

Politique de rédaction

Présentation de textes pour la revue

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Efficacité relative des méthodes fondées sur l’estimation par régression d’enquête assistée par un modèle : une étude par simulations
Section 5. Estimation selon un échantillonnage non probabiliste