Estimation du chômage sur petits domaines à l’aide des modèles latents de Markov
Section 1. Introduction

En Italie, l’Institut statistique national, l’ISTAT, mène tous les trimestres l’enquête sur la population active (EPA) pour produire des estimations de la situation d’activité de la population aux niveaux national, régional (NUTS2) et provincial (LAU1) à une fréquence respectivement mensuelle, trimestrielle et annuelle. Depuis 1996, cet organisme diffuse aussi des estimations EPA du nombre de salariés et de chômeurs en fonction des zones locales de marché du travail (ZLMT). Ce sont là des secteurs géographiques infrarégionaux où demeure et travaille le gros de la main-d’œuvre et où les établissements peuvent puiser la plus grande partie des effectifs des emplois qui s’offrent. On dénombre 611 zones fonctionnelles distinctes qui se définissent comme des grappes de municipalités en attribution par les habitudes de navettage selon les données du recensement de la population de 2011 (Istat, 2014). À la différence des zones NUTS2 et LAU1, les ZLMT sont des domaines non planifiés qui ne respectent pas le découpage en strates d’échantillonnage ni en zones LAU1. Ajoutons que les estimateurs directs sont entachés de trop grandes erreurs d’échantillonnage, plus particulièrement dans le cas des zones à petite taille d’échantillon. Cela oblige à emprunter de la puissance aux données de variables auxiliaires d’autres zones grâce à des modèles appropriés, ce qui permet d’obtenir des estimations indirectes ou par modèle.

Les méthodes d’estimation sur petits domaines (EPD) servent à l’inférence sur des populations finies pour l’estimation des paramètres d’intérêt là où les tailles d’échantillon de domaine sont trop petites pour conférer une précision suffisante aux estimateurs directs de domaine. On peut élaborer des modèles statistiques EPD au niveau individuel ou collectif (zones). Notre exposé portera sur les zones. Le modèle de Fay-Herriot (Fay et Herriot, 1979, ou F-H) est le modèle EPD de base à niveaux de zones; il exploite des données transversales de prévision de paramètres d’intérêt sur petits domaines en combinant des estimations directes et des données auxiliaires de population avec un modèle mixte linéaire. Là où des données longitudinales sont aussi disponibles, il devient possible d’emprunter de la puissance aux données d’échelonnement dans le temps. Entre autres exemples, Rao et Yu (1994) proposent un modèle faisant appel à des effets aléatoires en autocorrélation et à des données chronologiques et transversales, alors que Marhuenda, Molina et Morales (2013) conçoivent un modèle spatio-temporel F-H où se trouvent combinés un modèle autorégressif dans l’espace et une structure autorégressive des covariances du premier ordre dans le temps.

Dans plusieurs études, on traite de l’estimation sur petits modèles en parlant de modèles de séries chronologiques et de filtre de Kalman et en les exprimant sous la forme d’un espace d’états. Pfeffermann et Burck (1990) introduisent des modèles d’espace d’états pour estimer les taux de chômage au Canada et Pfeffermann et Rubin-Bleuer (1993) font de même pour modéliser la corrélation entre les tendances des séries de domaines dans un modèle de séries chronologiques en structure multidimensionnelle. Pfeffermann et Tiller (2006) ajoutent des contraintes comparatives mensuelles au modèle de séries chronologiques avec espace d’états, alors qu’Harvey et Chung (2000) proposent un modèle à espace d’états en structure bidimensionnelle pour obtenir des estimations plus stables et plus précises des variations du chômage. Krieg et Van den Brakel (2012) modélisent les séries de domaines sous forme de modèle de séries chronologiques en structure multidimensionnelle et appliquent un schéma de cointégration pour construire des modèles plus parcimonieux sur tendances communes. L’estimation à démarcation de niveaux dans un cadre de séries chronologiques avec structure est illustrée par Van den Brakel et Krieg (2015). Plus récemment, ces mêmes auteurs (2016) et Boonstra et Van den Brakel (2016) appliquent de tels modèles aux données de l’EPA néerlandaise.

On a aussi conçu des propositions pour les données de séries chronologiques à niveaux de zones à l’aide d’un cadre bayésien hiérarchique (BH). Plus précisément, Ghosh, Nangia et Kim (1996) procèdent à une analyse intégrale BH par modèle de séries chronologiques pour estimer le revenu médian des familles de quatre membres. Datta, Lahiri, Maiti et Lu (1999) appliquent ce même cadre à une série chronologique plus longue de la Current Population Survey des États-Unis et utilisent un modèle à marche aléatoire dans le cas des effets aléatoires de domaine. You, Rao et Gambino (2003) appliquent le même modèle à l’estimation des taux de chômage de l’EPA canadienne. Récemment, Boonstra (2014) s’est servi d’un modèle BH de séries chronologiques à niveaux multiples pour estimer le chômage au niveau des municipalités au moyen des données de l’EPA néerlandaise. Il obtient en particulier des estimations pour chaque trimestre et tient compte des effets aléatoires de municipalité et de ces mêmes effets par trimestre.

Dans le présent article, nous exposons une nouvelle méthode EPD à niveaux de zones par les modèles latents ou cachés de Markov (MLM; voir leur description complète dans Bartolucci, Farcomeni et Pennoni, 2013) en vue d’estimer la fréquence du chômage dans les ZLMT dans un cadre BH et avec des données trimestrielles de 2004 à 2014. Les modèles EPD à niveaux de zones sont en deux parties, comprenant un modèle d’échantillonnage formalisant des hypothèses sur des estimateurs directs et leur relation avec des paramètres de domaine sous-jacents, tout comme un modèle de couplage liant ces mêmes paramètres à une information auxiliaire par zone. Ici, un MLM sert de modèle de couplage et le modèle d’échantillonnage est introduit au sommet de la hiérarchie. Le modèle ainsi obtenu est ajusté dans un cadre bayésien au moyen d’un échantillonneur de Gibbs avec données augmentées (correspondant aux variables latentes ou cachées), ce qui permet un échantillonnage plus efficace des paramètres du modèle (Tanner et Wong, 1987).

Les MLM, qui ont été introduits par Wiggins (1973), permettent l’analyse de données longitudinales lorsque les variables de réponse mesurent des caractéristiques communes d’intérêt qui ne sont pas directement observables. Leur formulation de base est semblable à celle des modèles latents de Markov pour données de séries chronologiques (MacDonald et Zucchini, 1997). Dans ces modèles, les caractéristiques d’intérêt et leur évolution dans le temps sont représentées par un processus caché en chaîne de Markov, habituellement du premier ordre, de sorte que, individuellement, les zones visées soient à même de se déplacer dans le temps entre un certain nombre d’états cachés. Les MLM peuvent être considérés comme un prolongement des modèles à chaîne de Markov pour un contrôle des erreurs de mesure. Ils sont aussi une extension des modèles à classes latentes (Lazarsfeld, Henry et Anderson, 1968) à des données longitudinales. Des modèles à classes latentes ont été envisagés dans un cadre EPD par Fabrizi, Montanari et Ranalli (2016), là où un modèle à niveaux unitaires de classes latentes pour la prévision sur petits domaines du nombre de personnes handicapées à l’aide de données d’enquête est appliqué à des données transversales.

Voici comment se présente le reste de notre exposé: la section 2 décrira plus en détail les données disponibles de l’EPA; la section 3 introduira une notation et passera en revue les méthodes EPD à niveaux de zones et en séries chronologiques qu’exposent les études spécialisées. À la section 4, nous détaillerons le modèle et la procédure de son estimation et, à la section 5, nous analyserons les résultats de son application aux données de l’EPA. Enfin, nous tirerons des conclusions et évoquerons les futures étapes possibles à la section 6.


Date de modification :