Mesure de l’incertitude associée aux estimateurs pour petits domaines basés sur un modèle
Section 1. Introduction
Les données d’enquête sont souvent utilisées pour produire des estimations de totaux ou de moyennes de domaine (sous-population). Les estimateurs directs classiques pour les domaines, y compris les estimateurs par calage utilisant les totaux de population connus de variables auxiliaires, sont conçus pour fournir des estimateurs fiables pour les domaines dont la taille d’échantillon est grande. En revanche, la précision des estimateurs directs n’est pas suffisante pour les domaines dont la taille d’échantillon est petite (petits domaines). Toutefois, la demande de statistiques fiables pour les petits domaines a beaucoup augmenté ces dernières années. Il faut donc recourir à des estimateurs indirects qui empruntent de l’information à des domaines apparentés grâce à de l’information auxiliaire connue, comme les données des recensements et des dossiers administratifs, pour accroître l’efficacité. Les estimateurs indirects basés sur des modèles de liaison explicites sont d’usage très répandu, notamment, les meilleurs estimateurs empiriques (estimateurs EB pour Empirical Best) basés sur des modèles de régression linéaires au niveau du domaine ou au niveau de l’unité avec effets aléatoires de domaine. Une description détaillée de l’estimation EB sous ces modèles est donnée dans Rao et Molina (2015), chapitres 6 et 7. À la section 2, nous présentons les estimateurs EB des moyennes de petit domaine sous des modèles de base au niveau du domaine et au niveau de l’unité.
Après des évaluations externes minutieuses, les organismes statistiques nationaux considèrent souvent les estimateurs basés sur un modèle de type EB comme étant appropriés pour produire les statistiques officielles. Beaumont et Bocci (2016) ont comparé les estimations EB et les estimations directes du taux de chômage pour des petits domaines calculées d’après Enquête sur la population active (EPA) du Canada à des estimations « de référence » obtenues d’après l’Enquête nationale auprès des ménages, dont la portée est beaucoup plus grande (comparable à celle du questionnaire détaillé du recensement), et constaté que l’erreur relative des estimations EB est nettement plus petite que celle des estimations directes correspondantes. Les auteurs ont utilisé un modèle de régression linéaire de base au niveau du domaine avec effets aléatoires de domaine pour produire les estimations EB. Des évaluations externes ont été utilisées pour la première fois dans l’article fondamental de Fay et Herriot (1979) sous un modèle de base au niveau du domaine pour produire des estimations du revenu moyen pour de petites localités aux États-Unis.
L’erreur quadratique moyenne (EQM) sous le modèle des estimateurs EB est souvent utilisée pour mesurer la variabilité des estimateurs. En particulier, les estimateurs par linéarisation, de même que les estimateurs jackknife et bootstrap de l’EQM sous le modèle sont d’usage très répandu. À la section 3, nous décrivons brièvement l’estimation de l’EQM basée sur un modèle, y compris les estimateurs s’appuyant sur un cadre inconditionnel ou conditionnel.
La littérature sur l’estimation de l’EQM sous le modèle est très abondante, mais les organismes statistiques nationaux s’intéressent souvent à l’estimation de l’EQM des estimateurs EB sous le plan de sondage, pour cadrer avec les estimateurs classiques de l’EQM sous le plan des estimateurs directs pour les grands domaines dont la taille d’échantillon est adéquate (Pfeffermann et Gilboa, 2017). Il est possible d’obtenir les estimateurs de l’EQM sous le plan des estimateurs EB pour le modèle de base au niveau du domaine, mais ils ont tendance à être instables quand la taille de l’échantillon de domaine est petite. Pour résoudre ce problème, nous proposons à la section 4 des estimateurs composites de l’EQM calculés en prenant une somme pondérée de l’estimateur de l’EQM sous le plan et de l’estimateur de l’EQM sous le modèle. Nous étudions également le cas des modèles au niveau de l’unité sous échantillonnage aléatoire simple dans les domaines. À la section 5, nous présentons les résultats d’études en simulation sur la performance des estimateurs composites proposés de l’EQM, évaluée au moyen du biais relatif absolu (BRA), de la racine carrée de l’erreur quadratique moyenne relative (REQMR) et de la couverture des intervalles de confiance. Tant les modèles au niveau du domaine que ceux au niveau de l’unité sont pris en considération dans l’étude en simulation. Enfin, nous présentons certaines conclusions à la section 6.
- Date de modification :