Coordination d’échantillons spatialement équilibrés
Section 1. Introduction

Dans le cadre d’échantillonnage classique, un échantillon aléatoire est tiré d’une population finie avec une probabilité déterminée par le plan d’échantillonnage. Le plan peut être étendu au tirage de plusieurs échantillons en définissant une probabilité jointe pour les sélectionner. Par ailleurs, deux ou plusieurs échantillons peuvent être tirés d’une même population ou de populations qui se chevauchent, de façon indépendante ou non. La coordination des échantillons, qui s’applique à la dernière situation, vise à créer une dépendance probabiliste entre les tirages d’échantillons en se basant sur un plan d’échantillonnage joint. On y recourt lorsqu’on a affaire à des enquêtes répétées ou à plusieurs enquêtes. Deux formes de coordination, positive ou négative, sont définies dans la littérature. Dans le premier cas, on cherche à maximiser le chevauchement de différents échantillons, tandis que dans le second, on veut le minimiser. La coordination positive peut être utilisée pour réduire les coûts d’enquête ou pour induire une covariance positive entre les estimateurs d’états successifs dans des enquêtes répétées, et donc réduire la variance d’un estimateur d’évolution. La coordination négative peut être appliquée pour réduire le fardeau de réponse des unités susceptibles d’être sélectionnées pour plusieurs enquêtes.

Au moment de la mise à jour d’un échantillon dans des enquêtes répétées au cours du temps (un panel), des disparitions (décès), des ajouts (naissances) ou des fusions d’unités peuvent avoir lieu au sein de la population. Donc, la population évolue au cours du temps et le même échantillon ne peut pas être utilisé à chaque édition de l’enquête. De nouveaux échantillons sont tirés à différentes périodes, mais un certain degré de chevauchement entre les échantillons peut être nécessaire. Cela peut être réalisé en faisant appel à la coordination positive. Par ailleurs, la coordination négative est habituellement utilisée pour tirer des échantillons dans plusieurs enquêtes, faisant donc intervenir des populations différentes, mais qui se chevauchent. En raison d’ajouts, de disparitions, de changements d’activité ou de taille, de scissions, de fusions, etc. d’unités dans une même population, ou de l’utilisation de différentes populations qui se chevauchent, un important problème dans la coordination des échantillons est la difficulté à gérer l’évolution de la population au cours du temps ou différentes populations qui se chevauchent. Habituellement, pour résoudre ce problème, on construit une population globale sous forme d’une union de toutes les unités ayant déjà existé, ou d’une union de différentes populations qui se chevauchent.

Diverses méthodes de coordination des échantillons ont été décrites dans la littérature. Un résumé de telles méthodes est donné, par exemple, dans Grafström et Matei (2015). Une méthode simple de coordination d’échantillons s’appuie sur l’utilisation des nombres aléatoires permanents introduits par Brewer, Early et Joyce (1972) pour les échantillons de Poisson et consiste à associer à chaque unité de la population globale un nombre aléatoire U ( 0,1 ) , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9y8WrFr0xc9vqFj0db9qqvqFr0dXdHiVc=b YP0xH8peuj0lXxdrpe0db9Wqpepic9qr=xfr=xfr=tmeaabaqaciGa caGaaeqabaqaaeaadaaakeaacaWGvbWaaeWaaeaacaaIWaGaaGilai aaigdaaiaawIcacaGLPaaacaqGSaaaaa@372E@ que l’on appelle nombre aléatoire permanent (NAP). Ces nombres sont indépendants et utilisés dans tous les tirages d’échantillons. La dépendance probabiliste du tirage des échantillons est donc créée par l’usage des nombres aléatoires permanents. Diverses versions de la méthode NAP de Brewer et coll. (1972) ont été décrites dans la littérature (voir Kröger, Särndal et Teikari, 1999; Kröger, Särndal et Teikari, 2003, par exemple) et sont d’usage répandu dans différents contextes. Un exemple récent d’une méthode NAP est le nouveau système de coordination des enquêtes auprès des entreprises adopté par Statistique Canada. Un plan d’échantillonnage stratifié à deux phases est utilisé. À la première phase, on effectue un échantillonnage stratifié selon la géographie, le type d’industrie et la taille de l’entreprise, puis on tire un échantillon de Bernoulli dans chaque strate en utilisant les NAP. L’objectif principal de la première phase est de sélectionner un grand échantillon englobant toutes les industries. Pour deux vagues consécutives de la première phase, une coordination positive est appliquée. À la deuxième phase, un échantillon est tiré de l’échantillon de première phase. Pour deux vagues consécutives de la deuxième phase, une coordination négative est appliquée pour contrôler le fardeau de réponse des entreprises (Haziza, 2013).

Nous souhaitons fournir des solutions pour coordonner des échantillons spatialement équilibrés (pour une vue d’ensemble des échantillons spatialement équilibrés, voir Benedetti, Piersimoni et Postiglione, 2017). Habituellement, l’échantillonnage spatial repose sur une discrétisation de l’espace qui aboutit à l’utilisation de la définition classique de l’échantillonnage des populations finies. Donc, une population est définie comme un ensemble fini d’unités ou d’emplacements auxquels sont associées des coordonnées géographiques. Dans la plupart des cas, les données sont spatialement autocorrélées et les emplacements voisins ont tendance à fournir des informations similaires. Par conséquent, il est désirable d’échantillonner des unités dispersées à travers toute la région d’intérêt et d’obtenir un échantillon spatialement équilibré. La notion intuitive qui sous-tend cette approche est de couvrir par échantillonnage l’entièreté de la région d’intérêt afin d’obtenir une certaine représentativité. L’échantillon sélectionné devrait donc fournir une couverture spatiale complète. Les échantillons spatialement équilibrés sont efficaces si une tendance spatiale est présente dans la variable d’intérêt, désignée par y . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9y8WrFr0xc9vqFj0db9qqvqFr0dXdHiVc=b YP0xH8peuj0lXxdrpe0db9Wqpepic9qr=xfr=xfr=tmeaabaqaciGa caGaaeqabaqaaeaadaaakeaacaWG5bGaaGOlaaaa@33A7@ Benedetti et coll. (2017, page 447) font remarquer ceci [Traduction] : « La raison qui motive le choix de tirer des échantillons spatialement bien étalés est sûrement raisonnable si l’on juge acceptable que l’accroissement de la distance entre deux unités k MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9y8WrFr0xc9vqFj0db9qqvqFr0dXdHiVc=b YP0xH8peuj0lXxdrpe0db9Wqpepic9qr=xfr=xfr=tmeaabaqaciGa caGaaeqabaqaaeaadaaakeaacaWGRbaaaa@32E1@ et l MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9y8WrFr0xc9vqFj0db9qqvqFr0dXdHiVc=b YP0xH8peuj0lXxdrpe0db9Wqpepic9qr=xfr=xfr=tmeaabaqaciGa caGaaeqabaqaaeaadaaakeaacqWItecBaaa@3322@ fasse augmenter la différence observée aux unités k MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9y8WrFr0xc9vqFj0db9qqvqFr0dXdHiVc=b YP0xH8peuj0lXxdrpe0db9Wqpepic9qr=xfr=xfr=tmeaabaqaciGa caGaaeqabaqaaeaadaaakeaacaWGRbaaaa@32E1@ et l , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9y8WrFr0xc9vqFj0db9qqvqFr0dXdHiVc=b YP0xH8peuj0lXxdrpe0db9Wqpepic9qr=xfr=xfr=tmeaabaqaciGa caGaaeqabaqaaeaadaaakeaacqWItecBcaGGSaaaaa@33D2@ à savoir | y k y l | . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9y8WrFr0xc9vqFj0db9qqvqFr0dXdHiVc=b YP0xH8peuj0lXxdrpe0db9Wqpepic9qr=xfr=xfr=tmeaabaqaciGa caGaaeqabaqaaeaadaaakeaadaabdaqaaiaaykW7caWG5bWaaSbaaS qaaiaadUgaaeqaaOGaeyOeI0IaamyEamaaBaaaleaacqWItecBaeqa aOGaaGPaVdGaay5bSlaawIa7aiaai6caaaa@3E57@ Dans cette situation, il est évident que la variance de l’estimateur de Horvitz-Thompson diminuera nécessairement si nous fixons des probabilités d’inclusion jointe élevées pour les paires qui ont des valeurs de y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaebbnrfifHhDYfgasaacH8rrps0l bbf9q8WrFfeuY=Hhbbf9y8WrFr0xc9vqFj0db9qqvqFr0dXdHiVc=b YP0xH8peuj0lXxdrpe0db9Wqpepic9qr=xfr=xfr=tmeaabaqaciGa caGaaeqabaqaaeaadaaakeaacaWG5baaaa@32EF@ très différentes. » Deux plans d’échantillonnage spatiaux utiles pour réaliser ces objectifs sont la méthode du pivot local (Grafström, Lundström et Schelin, 2012) et l’échantillonnage de Poisson spatialement corrélé (Grafström, 2012). Les travaux empiriques ont montré que ces deux plans d’échantillonnage offrent un bon degré d’étalement spatial, mesuré en utilisant les polytopes de Voronoï (voir, par exemple, Grafström et coll., 2012, pour certains résultats).

Nous nous concentrons sur la coordination d’échantillons spatialement équilibrés par des méthodes à NAP, quand le tirage de l’échantillon suit la méthode du pivot local (MPL) ou l’échantillonnage de Poisson spatialement corrélé (EPSC). L’échantillonnage spatial est utilisé dans de nombreuses applications dans les études environnementales, en foresterie, dans les enquêtes agricoles, mais aussi en statistique officielle. Les exemples qui suivent motivent l’introduction des échantillons spatialement équilibrés coordonnés :

Soulignons que la littérature n’offre pas encore de descriptions de méthodes de coordination des échantillons spatiaux. La nouveauté de l’article consiste à présenter des méthodes en vue de coordonner des échantillons spatialement équilibrés. Tous les avantages de la coordination des échantillons décrits plus haut sont fournis pour les échantillons spatialement équilibrés. Dans les deux types de coordination, les méthodes proposées maintiennent la propriété d’équilibrage spatial des échantillons sélectionnés. Notons que notre objectif est de contrôler la taille du chevauchement des échantillons équilibrés et non d’améliorer la coordination des échantillons en général.

La présentation de l’article est la suivante. À la section 2, nous décrivons la notation. Aux sections 3.1 et 3.2, nous rappelons la méthode du pivot local (MPL) et l’échantillonnage de Poisson spatialement corrélé (EPSC), respectivement, tandis qu’à la section 3.3, nous décrivons une mesure de l’équilibre spatial fondée sur les polytopes de Voronoï. À la section 4, nous présentons des méthodes pour coordonner les échantillons MPL et EPSC. Nous introduisons aussi une nouvelle famille de plans d’échantillonnage équilibrés dérivés de l’échantillonnage EPSC, qui donne de bons résultats pour la coordination des échantillons. À la section 5.1, nous présentons les propriétés de coordination des méthodes. À la section 5.2, nous comparons la nouvelle famille de plans d’échantillonnage équilibrés à l’échantillonnage de Poisson, tandis qu’à la section 5.3, nous donnons les résultats de simulations pour deux estimateurs types utilisés dans les enquêtes répétées. À la section 6, nous décrivons une application des méthodes proposées sur des données réelles. Enfin, à la section 7, nous présentons une discussion des méthodes proposées et nos conclusions.


Date de modification :