Mesure de l’incertitude associée aux estimateurs pour petits domaines basés sur un modèle
Section 2. Estimateurs EB
À la
présente section, nous présentons les estimateurs EB pour les moyennes ou
totaux de petit domaine, notés
pour
domaines dont les échantillons sont de petite
taille. Pour les modèles au niveau du domaine, nous supposons que les
estimateurs directs
et les covariables au niveau du domaine
associées
sont disponibles pour les
domaines, où
est un vecteur de dimension
Dans le cas des modèles au niveau de l’unité,
nous supposons que les données au niveau de l’unité
sont disponibles pour les domaines
échantillonnés, où
est la taille d’échantillon dans le domaine
et
est un vecteur de dimension
de covariables qui peuvent inclure des
covariables au niveau du domaine. Nous supposons que les moyennes de population
de domaine
sont connues.
2.1 Modèle de base au niveau du domaine
Nous
supposons que l’estimateur direct
est sans biais sous le plan (soit exactement
ou approximativement pour une grande taille d’échantillon global
Par exemple, les estimateurs calés sur des
moyennes globales connues de variables auxiliaires sont approximativement sans
biais. Nous exprimons cette hypothèse sous forme d’un modèle d’échantillonnage
où l’erreur d’échantillonnage
est de moyenne nulle et de variance
Nous supposons en outre que la variance
d’échantillonnage
est connue et non aléatoire. En pratique, les
estimateurs des variances d’échantillonnage sont lissés et l’estimateur lissé
résultant est considéré comme une approximation de
Beaumont et Bocci (2016) proposent une méthode
de lissage des variances d’échantillonnage dans le contexte de l’EPA du Canada.
Le modèle reliant les domaines repose sur l’hypothèse que les
sont aléatoires et obéissent au modèle de
liaison « correspondant »
où l’effet aléatoire de domaine
est de moyenne nulle et de variance
et est indépendant de l’erreur
d’échantillonnage
Nous supposons en outre que
et
suivent des lois normales.
La
combinaison du modèle d’échantillonnage avec le modèle de liaison aboutit au
modèle de base au niveau du domaine
Les
principaux avantages du modèle (2.1) par rapport aux estimateurs directs
découlent du fait qu’il tient compte du plan d’échantillonnage grâce au modèle
d’échantillonnage et qu’il ne requiert que des covariables au niveau du
domaine, qui s’obtiennent plus facilement que des covariables au niveau de
l’unité.
Pour
des paramètres du modèle connus
le « meilleur » (noté B pour Best) estimateur de
est donné par
où
Le meilleur estimateur (2.2) est sans biais
pour
en ce sens que
où l’espérance est prise par rapport au modèle
présumé (2.1), qui est l’espérance conjointe par rapport au modèle et au plan
(Rubin-Bleuer et Schiopu-Kratina, 2005). Il découle de (2.2) que plus de poids
est attribué à l’estimateur direct
si la variance sous le modèle
est grande comparativement à la variance
d’échantillonnage
et que plus de poids est accordé à
l’estimateur synthétique
si la variance d’échantillonnage est grande.
L’erreur
quadratique moyenne (EQM) du meilleur estimateur sous le modèle (2.1) est
donnée par
où
le terme
est souvent noté
Il découle de (2.3) que l’estimateur optimal
donne lieu à une réduction importante de l’EQM par rapport à l’estimateur
direct si
est petit ou que la variance sous le modèle
est relativement faible comparativement à la variance totale
Ce résultat fournit une justification
convaincante de l’utilisation de l’approche basée sur un modèle pour produire
des estimations sur petits domaines.
En
pratique, les paramètres du modèle sont inconnus et nous remplaçons les
paramètres figurant dans (2.2) par les estimateurs du maximum de
vraisemblance restreint (REML)
pour obtenir le meilleur estimateur empirique
(estimateur EB):
Rao et
Molina (2015), chapitre 6, décrivent en détail l’estimation du REML des
paramètres du modèle.
2.2 Modèle de base au niveau de l’unité
Considérons
maintenant un modèle de base au niveau de l’unité qui utilise des données
d’échantillon au niveau de l’unité
où
est la taille de l’échantillon dans le domaine
Nous supposons que les moyennes de population
de domaine
sont connues. Nous émettons en outre
l’hypothèse d’un modèle de régression linéaire à erreurs emboîtées de base au
niveau de l’unité pour la population et supposons que le même modèle tient pour
l’échantillon (Battese, Harter et Fuller, 1988). Le modèle d’échantillonnage
est donné par
où
les effets aléatoires de domaine
sont présumés être indépendants des erreurs au
niveau de l’unité
Les modèles au niveau de l’unité peuvent mener
à d’importants gains d’efficacité par rapport aux modèles au niveau du domaine,
parce que les paramètres du modèle peuvent être estimés avec plus de précision
en utilisant toutes les observations dans l’échantillon global, contrairement
aux modèles au niveau du domaine.
Pour les
paramètres connus
le « meilleur » estimateur de la
moyenne de domaine
est donné par
où
et
sont les moyennes d’échantillon,
avec la fraction d’échantillonnage
et
et
est le nombre d’unités de la population dans
le domaine
(Rao et Molina, 2015,
chapitre 7). Si la taille de la population du domaine
est grande et que
alors (2.6) se réduit à une combinaison
pondérée de l’estimateur « par la régression sur l’échantillon »
et de l’estimateur par la régression
synthétique
avec les poids
et
respectivement. Nous désignons cette
approximation de
par
À mesure qu’augmente la taille d’échantillon
de domaine
l’estimateur optimal donne plus de poids à
l’estimateur par la régression sur l’échantillon. En pratique, nous remplaçons
les paramètres du modèle par les estimateurs du REML
pour obtenir l’estimateur EB
ou
L’estimateur
EB sous le modèle au niveau de l’unité (2.5) ne tient pas compte des poids de
sondage
contrairement au modèle au niveau du domaine.
Par conséquent, l’estimateur EB n’est pas convergent sous le plan quand la
taille d’échantillon de domaine augmente, à moins que les poids ne soient tous
égaux à l’intérieur du domaine.
L’EQM
de
est égale à
tandis que l’EQM de l’estimateur par la
régression sur l’échantillon est égal à
Il s’ensuit maintenant que l’estimateur
optimal donne lieu à une réduction importante de l’EQM par rapport à
l’estimation par la régression sur l’échantillon si
est petit ou que la variance du modèle
est petite comparativement à la variance
totale
ISSN : 1712-5685
Politique de rédaction
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.
© Sa Majesté la Reine du chef du Canada, représentée par le ministre de l’Industrie 2018
L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.
N° 12-001-X au catalogue
Périodicité : semi-annuel
Ottawa