Méthodologie de l'Enquête sur la population active du Canada
Chapitre 3 Création et tenue à jour de la base de logements

3.0  Introduction

Comme mentionné au chapitre précédent, l’Enquête sur la population active (EPA) utilise un plan de sondage à deux degrés dans toutes les provinces sauf à l’Île-du-Prince-Édouard. Un des avantages de cette approche est que l’échantillon est concentré dans un nombre limité de régions; par conséquent, il est possible de réaliser des interviews sur place. Au premier degré, des unités primaires d’échantillonnage (UPE) – également appelées grappes – correspondant à des régions géographiques sont sélectionnées. Il s’agit de parcelles de terrain relativement petites, souvent des aires de diffusion du recensement (AD). Dans les UPE sélectionnées, des logements sont sélectionnés au deuxième degré d’échantillonnage.

Aux deux degrés du processus d’échantillonnage, une base de sondage, c.-à-d. une liste de toutes les unités (grappes ou logements) qui font partie de la population cible, s’impose. Une base de sondage de bonne qualité aura des erreurs de couverture limitées et facilitera le contact avec les unités échantillonnées. Étant donné que de nouvelles unités sont continuellement ajoutées à la population cible et supprimées de cette dernière, il est important que la tenue à jour soit effectuée sur la base de sondage. Les détails sur la création de la base de sondage pour les UPE et les aspects du plan pour la sélection des ménages ont été décrits au chapitre 2.

3.1  Création de la base de logements

Dans les UPE sélectionnées, une liste complète de logements (une base de sondage) est requise afin de sélectionner l’échantillon du deuxième degré. La liste est obtenue soit par un exercice de listage effectué sur le terrain, soit à partir d’une liste existante, en particulier le Registre des adresses (RA). Une fois disponible, la liste de logements sera utilisée tant que l’UPE soit dans l’échantillon. Un défi constant consiste à déterminer quelles UPE venant d’être échantillonnées devraient faire l’objet d’un listage, et lesquelles peuvent se fier aux renseignements du RA. Le listage sur le terrain est une solution plus coûteuse qui devrait être évitée dans la mesure du possible. Il se produit habituellement lorsque l’information dans les listes existantes est de faible qualité.

3.1.1  Le Registre des adresses

Le RA est une base de données qui a été créée au départ pour les données du Recensement de la population canadienne de 1991, en vue d’améliorer la couverture du recensement. Il a été créé au moyen de plusieurs fichiers administratifs, notamment les factures de téléphone et les fichiers de permis de construire. Toute de suite après ce recensement, le RA a été mis à jour au moyen de la liste des adresses créée pendant le processus de dénombrement du recensement. Depuis cette première itération, le RA a continué d’être tenu à jour tous les trimestres au moyen de fichiers administratifs et du programme de listage du recensement, ainsi que des renseignements du recensement disponibles tous les cinq ans.

Le RA visait au départ à fournir et à tenir une liste d’adresses pour les collectivités ayant une population de plus de 50 000 personnes. La couverture du RA a été élargie après chaque recensement subséquent pour inclure les petits centres de population et les régions à l’extérieur des centres de population. À l’heure actuelle, le RA a une couverture nationale, mais il est plus précis dans les agglomérations.

En 2015, le RA incluait plus de 15 millions d’adresses. La grande majorité de ces adresses – environ 90 % – ont été associées à des logements résidentiels valides pendant le Recensement de 2011. Parmi les adresses restantes, 7 % ont été obtenues par le biais de mises à jour des fichiers administratifs et de listage sur le terrain en prévision du Recensement de 2016, et 3 % étaient des logements valides pendant un recensement précédent.

Pour apparaître dans le RA, un logement résidentiel doit posséder une adresse de voirie standard valide, ou une forme quelconque d’adresse descriptive. Pour les besoins de l’enquête, les adresses descriptives sont souvent incomplètes et ne fournissent pas nécessairement assez d’information pour repérer le logement. Lorsqu’il y a une proportion considérable d’adresses descriptives, la zone pourrait nécessiter un listage sur le terrain.

Deux fichiers clés sont extraits de la base de données du RA pour le processus de création de la base de logements de l’EPA : le Fichier de l’univers des logements et le Fichier de numéros de téléphone résidentiels.

Fichier de l’univers des logements

Le Fichier de l’univers des logements (FUL) est un extrait d’adresses du RA. Des règles s’appliquent pour faire en sorte que la liste contienne uniquement les logements qui correspondent à la population cible de l’EPA. Ces règles évoluent au fil du temps, à mesure que les méthodes pour détecter les adresses erronées ou en double s’améliorent. Les logements collectifs représentent également une petite proportion de la population cible de l’EPA, et ces logements sont disponibles par le biais du processus d’extraction du RA.

Fichier de numéros de téléphone résidentiels

Le Fichier de numéros de téléphone résidentiels (FTR) est une liste de numéros de téléphone résidentiels valides au Canada. Un grand nombre de ces numéros (88 % en 2015) peuvent être associés à l’adresse d’un logement qui se trouve dans le FUL. Le FTR peut donc être utilisé pour ajouter des numéros de téléphone – des coordonnées essentielles – à une grande partie des logements échantillonnés.

3.1.2  La Base nationale de données géographiques

Pour utiliser le RA dans un contexte de plan de sondage à deux degrés, chaque adresse doit d’abord être affectée à une UPE en particulier. Pour ce faire, on apparie le RA à la Base nationale de données géographiques (BNDG). La BNDG contient des couches cartographiques qui incluent les limites de l’UPE, les réseaux routiers, les voies navigables et d’autres repères géographiques. Cette information peut être utilisée pour associer des adresses à des tronçons de rue. Ces tronçons peuvent être au niveau de l’îlot (un îlot est un polygone composé de côtés de tronçons de rue contenus dans une AD) ou plus précisément au niveau du côté d’îlot (un seul tronçon de rue). Ces tronçons sont alors associés à une AD ou une UPE, ce qui associe véritablement le logement à l’UPE.

La BNDG est gérée en partenariat avec Élections Canada et évolue continuellement en raison de l’ajout régulier de routes et des mises à jour des limites géographiques, comme les limites municipales. Tous les trois mois, une nouvelle version de la BNDG est produite.

3.1.3  Mise en ordre de la liste d’adresses

Les adresses dans la base de logements doivent être organisées dans une liste ayant un ordre particulier pouvant être maintenu au fil du temps. Cet ordre facilite la recherche des logements sélectionnés, en plus d’aider les intervieweurs à reconnaître les omissions. L’ordre des adresses est créé par un processus de mise en ordre qui énumère les côtés d’îlots dans un ordre qui englobe la totalité de l’UPE, tout en réduisant au minimum la distance totale parcourue par l’intervieweur au moment de vérifier la liste d’adresses. Cet algorithme utilise les renseignements géographiques dans l’UPE provenant de la BNDG et est particulièrement utile pour les employés sur le terrain lorsque toutes les adresses peuvent être géocodées en fonction des côtés d’îlot. L’algorithme est exécuté pour la base de sondage au complet des UPE pour chaque version de la BNDG. Autrement dit, dans chaque UPE sélectionnée, la liste d’adresses est organisée dans un ordre particulier afin de faciliter et d’optimiser le listage.

3.2  Chargement et listage sur le terrain

Une fois que les logements ont été attribués à leurs UPE, des indicateurs de qualité pour la liste d’adresses peuvent être développés. La qualité détermine si la région exigera un listage sur le terrain ou si les renseignements du RA-BNDG suffiront comme liste à utiliser comme base de sondage pour les logements dans l’UPE.

Idéalement, les listes dans toutes les UPE seraient vérifiées sur le terrain (listage sur le terrain), mais le budget limite le nombre d’UPE pouvant tomber dans cette catégorie. La qualité de la liste d’adresses pour une UPE donnée dépend de la qualité du RA, de la qualité de la BNDG et de l’efficacité des règles d’admissibilité du FUL. L’objectif de cette stratégie consiste à utiliser le plus possible le RA, tout en tenant compte du fait que sa qualité fluctue d’une région à une autre.

On sait que la qualité du RA est la plus élevée dans les centres de population. Ces centres de population correspondent essentiellement au « secteur d’envoi par la poste », où la méthode de collecte du recensement consiste à joindre les ménages par courrier. Cette région correspond à environ 80 % des logements. D’après ces renseignements, les UPE sont classées dans un des trois groupes suivants :

La répartition de 2015 a attribué 72 % des UPE échantillonnées au groupe 0 du RA, 19 % au groupe 1 du RA et 9 % au groupe 2 du RA. Il s’agit d’un changement important par rapport au lancement du plan de 2005, où au moins 61 % des UPE avaient besoin d’un listage de départ. À mesure que les UPE sont ajoutées et retirées de l’échantillon et que la qualité du RA évolue (en particulier après le Recensement de 2016), la répartition des groupes du RA changera probablement.         

3.2.1  Chargement initial

Pour les UPE du groupe 0 du RA ou du groupe 1 du RA, la liste de logements utilisée pour la sélection de l’échantillon est remplie à partir de la liste d’adresses de logements disponible dans le FUL associées à ces UPE. Ce processus s’appelle le chargement initial. L’échantillon de logements de l’EPA est sélectionné directement de cette liste.

Les UPE non listées ont tendance à avoir une plus forte proportion d’unités échantillonnées ayant reçu le code « invalide » ou « démoli » au moment de la collecte des données d’enquête. On parlera des erreurs de couverture au chapitre 8.

3.2.2  Listage de départ

Les UPE dans le groupe 2 du RA doivent faire l’objet d’un listage de départ. L’objectif du listage de départ consiste à dresser une liste complète et exacte des logements pour la première sélection d’échantillon dans une UPE. La liste de départ est préremplie avec les logements associés avec cette UPE en fonction du FUL. Chaque logement dans la liste est validé, modifié ou désactivé par les employés sur le terrain. De nouveaux logements peuvent également être ajoutés à la liste.

Mise en correspondance des UPE

Afin d’effectuer efficacement le listage sur le terrain, les limites de l’UPE doivent être affichées sur une carte. Une traduction adéquate du contenu de la carte par rapport aux caractéristiques physiques sur le terrain est primordiale pour déterminer quels logements appartiennent à l’UPE. De plus, les numéros d’îlot et les plages d’adresses sur la carte peuvent aider à repérer des adresses en particulier. Les adresses ou les descriptions des logements sont saisies par l’intervieweur sur le terrain au moyen de l’application de listage de Statistique Canada. Les cartes de l’UPE sont produites au moyen du logiciel Système généralisé de cartographie, en place depuis 2009. L’annexe D contient des exemples de cartes d’UPE et décrit plus de détails au sujet de leur création et de leurs utilisations.

Listage des logements collectifs

Le listage des logements collectifs n’est pas aussi simple que celui des logements privés occupés. Il y a deux grands critères pour le listage de logements collectifs. Premièrement, les détenus ne font pas partie de la population visée par l’EPA. De même, les résidents temporaires ayant un lieu de résidence habituel ailleurs ne sont pas admissibles. Généralement, seuls la résidence du propriétaire, les résidences des employés et les logements pour les résidents hors établissement (p. ex., les unités dans une résidence pour personnes âgées) seraient listés.

3.3  Mise à jour de la base de sondage

Peu importe si l’UPE a fait l’objet d’un listage de départ ou pas, chaque mois, il est possible de mettre à jour ou de corriger la liste de logements. Par conséquent, la plupart des problèmes de base de sondage sont temporaires et peuvent être rectifiés pour les occasions d’échantillonnage subséquentes.

3.3.1  Mise à jour et tenue à jour de la liste

Une fois qu’une UPE a été sélectionnée, les mises à jour régulières de la liste d’adresses peuvent être faites tous les trimestres à partir de chaque nouvelle version du FUL (mise à jour de la liste) ou tous les mois à partir de la vérification sur le terrain (tenue à jour de la liste). Pour les grappes du groupe 0 du RA, une combinaison de mise à jour et de tenue à jour de la liste est utilisée. Pour les grappes des groupes 1 et 2 du RA, la tenue à jour de la liste est la source principale.

Dans le cas de la tenue à jour de la liste, les logements peuvent être ajoutés, modifiés ou désactivés (avec un motif quelconque pour la désactivation). L’ordre des logements peut être changé dans la liste, ce qui a une incidence sur le numéro de séquence d’impression, mais le numéro d’identification permanent dans la grappe, la ligne de listage, demeure inchangé. Cette approche permet à l’intervieweur d’avoir un ordre de liste de préférence, tout en conservant efficacement l’historique de l’échantillon de chaque logement.

La tenue à jour s’effectue normalement « par renouvellement », c’est-à-dire pendant le premier mois d’échantillonnage (p. ex., pendant les mois de ‘naissance’ de janvier ou de juillet pour les UPE du renouvellement 1). Habituellement, l’intervieweur doit visiter l’UPE, parce qu’au moins une partie des logements sélectionnés doivent être contactés en personne.

Logements sélectionnés par les intervieweurs

La tenue à jour de la liste peut donner lieu à des logements sélectionnés par les intervieweurs (LSI). Il s’agit de nouveaux cas de l’EPA que l’intervieweur IPAO doit traiter.

Il y a deux formes de LSI créés pendant la tenue à jour de la liste. D’abord, pendant la durée de vie de l’UPE, l’intervieweur peut régulièrement ajouter de nouveaux logements à mesure que la population s’accroît. Étant donné que la liste de logements est non limitative, d’autres logements peuvent être sélectionnés sur le terrain. Les structures ajoutées à la fin de la liste sont échantillonnées au moyen de la fraction de sondage inverse (FSI) au niveau de l’UPE et à partir de la prochaine ligne d’interview provenant de la dernière sélection de l’échantillon dans l’UPE. Une fois qu’on a sélectionné un logement, on détermine la prochaine ligne d’interview en appliquant la FSI de l’UPE.

On désigne la seconde forme de LSI par le terme « multiples ». Au cours de l’interview dans un logement sélectionné, l’intervieweur peut déterminer que la structure contient des logements distincts, généralement des unités de sous-sol ou d’étage pas facilement visibles de la rue. Étant donné que la liste des logements n’indique pas ces unités additionnelles sous forme de lignes distinctes, ces logements n’ont aucune chance d’être sélectionnés pendant la durée de vie de l’UPE. Afin de compenser les logements omis ainsi et dans d’autres cas semblables non résolus, on sélectionne toutes les unités omises avec le logement d’origine. Puis, on les ajoute à la liste comme multiples du logement sélectionné à l’origine et l’application génère un cas pour chaque multiple.

3.3.2  Traitement des zones en croissance

Comme les listes de logements de l’UPE sont ouvertes, une croissance extrême est possible. Les intervieweurs ne sont pas nécessairement en mesure de tenir à jour de longues listes à cause du coût associé à cette tenue à jour, ainsi que du temps nécessaire à la tenue d’interviews pour l’important afflux de nouvelles unités échantillonnées qui accompagne une aussi longue liste. Bien que cette croissance extrême soit observée dans moins de 1 % des UPE, des options doivent être disponibles pour la gérer et la traiter.

Sous-échantillonnage de l’UPE

En fonction de la rétroaction provenant du terrain, les UPE à forte croissance peuvent entraver la capacité de l’intervieweur de terminer toutes les interviews qui lui ont été attribuées. Le degré de difficulté à cet égard peut être amplifié dans le cas d’une tâche associée à un mois de ‘naissance’, en particulier si la fraction de ménages nécessitant des interviews sur place est élevée. En pareils cas de croissance isolée, l’UPE est sous-échantillonnée pour réduire le fardeau. L’EPA utilise deux formes de sous-échantillonnage.

La première est une simple modification du taux d’échantillonnage pour l’UPE en question. Cette technique – également appelée sous-échantillonnage de grappe ou mécanique – est utilisée dans la majorité des cas. Souvent, il suffit de diminuer le taux d’échantillonnage par un facteur de deux afin de réduire la charge de travail de l’intervieweur de moitié.

La deuxième forme de sous-échantillonnage est l’insertion d’un degré supplémentaire de sélection de l’échantillon. Dans cette technique, des sous-grappes sont formées comme unités secondaires d’échantillonnage (USE). Par convention, les UPE peuvent être appelées des grappes, et les composantes des UPE peuvent être appelées les sous-grappes. En cas de forte croissance, les employés du bureau central délimitent quatre sous-grappes ou plus de tailles à peu près équivalentes pour ce qui est du nombre de ménages dans l’UPE. Deux des USE sont alors sélectionnées pour l’activité d’enquête, et les facteurs de sous-échantillonnage sont créés.

Les modifications de sous-échantillonnage entravent la probabilité d’échantillonnage des ménages. Des descriptions des rajustements à prendre en compte à cet égard se trouvent dans l’explication des poids au chapitre 6.

Mise à jour de la strate

Rarement, la croissance d’une UPE est tellement extrême qu’elle peut plus que décupler le nombre de ménages. Dans ce scénario, le sous-échantillonnage de l’UPE peut introduire des facteurs d’échantillonnage extrêmes ou être insuffisant pour réduire la charge de travail de l’intervieweur. De plus, les facteurs de sous-échantillonnage peuvent créer une forte variabilité des probabilités d’échantillonnage et peuvent entraver la précision des estimations. En pareils cas, il est préférable de remanier la strate. Normalement, d’autres UPE dans la strate auront également enregistré une importante croissance.

Pour un remaniement au niveau de la strate, les UPE de départ affichant une croissance extrême sont re-délimitées en plusieurs nouvelles UPE comportant environ 230 ménages chacune, ce qui est la taille moyenne d’une UPE. Le nombre de logements estimatif pour toutes les UPE dans la strate est nécessaire, que les UPE soient nouvelles ou qu’elles aient conservé leurs limites originales. Ces chiffres peuvent souvent être obtenus en fonction du dernier FUL. Avec ces intrants révisés, le programme de mise à jour des strates est exécuté de manière à recréer les groupes de renouvellement aléatoires et à rétablir les fractions d’échantillonnage au niveau de l’UPE. Ce programme, basé sur Keyfitz (1951) et modifié par Drew, Choudhry et Gray (1978), conserve autant des UPE sélectionnées que possible au moment de la mise à jour.

Les UPE nouvellement sélectionnés doivent être listées sur le terrain ou chargées d’information provenant du RA. Le nouvel échantillon est introduit graduellement pendant une période de six mois.

3.3.3  Surveillance du rendement de l’UPE

Au fil du temps, le rendement de l’UPE des ménages est surveillé de près. Une UPE dont le rendement des ménages est exceptionnellement faible ou fort pourrait nécessiter une attention spéciale ou un traitement particulier. Un très faible rendement des ménages porte à croire qu’un changement fondamental est survenu depuis que les comptes d’origine ont été établis en juin 2013. Un fort rendement des ménages indiquent habituellement des zones de croissance, mais il peut également indiquer que les logements sont passés à la mauvaise UPE dans le FUL. Un suivi sur place ou des enquêtes menées par le bureau central sont effectués pour justifier ou pour corriger les incohérences.

3.3.4   Stabilisation de la taille de l’échantillon

Au fil du temps, on observe une augmentation générale lente de la taille, ou de l’effectif, de la population. Si l’on ne fait rien pour la contrôler, cette croissance augmenterait la taille de l’échantillon et les frais de collecte des données d’enquête. Pour contenir la taille de l’échantillon, on peut avoir recours à la stabilisation.

Objectifs de nombre d’unités

La première étape de la stabilisation consiste à déterminer dans quelles circonstances la stabilisation est nécessaire. Les objectifs de nombre d’unités – le nombre d’unités échantillonnées nécessaire dans une région pour obtenir l’échantillon de ménages souhaité – sont déterminés. Les objectifs de nombre d’unités tiennent compte du fait que certaines unités dans la base de sondage ne seront pas nécessairement des logements valides et qu’une fraction donnée de logements valides ne sont pas occupés (c.-à-d. que ce ne sont pas des ménages). Chaque zone de stabilisation est un ensemble de strates qui correspond à peu près à une région économique de l’assurance-emploi (REAE) ou à une proportion quelconque d’une REAE. Les objectifs de nombre d’unités devraient fonctionner pour tous les renouvellements, et rarement devoir être mis à jour. Les résultats de la collecte récente indiquent généralement dans quelles circonstances des rajustements aux objectifs de nombre d’unités sont justifiés – que ce soit à cause d’une insuffisance ou d’un surplus de ménages.

Sélection de la stabilisation

Les objectifs de nombre d’unités sont comparés au nombre d’unités obtenues de l’échantillonnage à partir des listes de logements les plus à jour aux taux prescrits. Les régions nécessitant une stabilisation sont celles où l’échantillon obtenu des listes de logements les plus récentes contiennent plus d’unités que nécessaire d’après les objectifs de nombre d’unités. Le nombre d’unités à éliminer est le nombre d’unités dans l’échantillon de départ moins l’objectif de nombre d’unités.

Certaines régions sont définies sans qu’on s’attende à y éliminer des unités du fait de la petite taille de l’échantillon et de la forte variabilité relative. Les UPE à forte croissance comportant un sous-échantillonnage sont également exemptées de la stabilisation pour éviter une inflation supplémentaire des facteurs de sous-échantillonnage déjà présents. À partir des unités restantes, un sous-échantillon systématique d’unités est sélectionné pour être éliminé du processus de collecte. Les probabilités de sélection des unités non éliminées sont rajustées pour assurer une représentation adéquate de la population.

D’autres enquêtes qui sélectionnent des unités à partir de la base de sondage de l’EPA peuvent s’occuper de leur propre stabilisation, en éliminant des unités de leur échantillon de départ. On reparlera de ces enquêtes au chapitre 9.

Ajustement du poids de stabilisation

Le poids de stabilisation, utilisé pour compenser pour les logements éliminés de l’échantillon, est calculé après l’élimination. Les strates dans un secteur de stabilisation n’ont pas toutes la même FSI de strate, et le calcul de l’ajustement des poids en tient compte, en veillant à ce que les unités échantillonnées représentent bien la population.

L’exemple qui suit illustre la façon dont les facteurs de stabilisation n’ont pas d’incidence sur la contribution pondérée du secteur de stabilisation au complet.

Imaginez un secteur de stabilisation de trois strates, A, B et C, les FSI au niveau de la strate se situant à 400, 500 et 600, et le rendement d’unités avant la stabilisation se situant à 10, 10 et 10 respectivement. Supposez en outre que l’objectif de nombre d’unités pour ce secteur de stabilisation est de 28, c’est-à-dire que deux unités devraient être éliminées. Pour cet exemple, on présume qu’une unité a été éliminée de la strate A et qu’une unité a été éliminée de la strate B.

La contribution pondérée de ce secteur de stabilisation devrait se chiffrer à 15 000 = 10×400+10×500+10×600. Les deux unités ayant été éliminées, la contribution pondérée devient 9×400+9×500+10×600=14 100. Le facteur de stabilisation est tel que la contribution pondérée de ce secteur de stabilisation est conservé. Dans cet exemple, le facteur de 15 000/14 100 est appliqué aux unités sélectionnées qui restent dans l’échantillon, et la contribution de ces unités à ce secteur de stabilisation est d’exactement 15 000, cet ajustement étant appliqué aux poids.

Considérations spéciales

Les logements sélectionnés sur le terrain en raison de la croissance de l’UPE sont relevés après le processus de stabilisation et n’ont donc aucune chance d’être inclus dans le programme de stabilisation. En théorie, il ne faudrait pas appliquer de poids de stabilisation à ces logements. Cependant, nos systèmes actuels attribuent les facteurs de stabilisation au niveau de la strate, et les LSI sont sujets au même facteur de stabilisation que les autres unités de la strate. L’incidence est minime, puisque le nombre de LSI en croissance est faible et que les facteurs de stabilisation sont proche de 1 ou exactement de 1. Les logements multiples, des logements comportant plusieurs unités répertoriées par erreur comme des résidences individuellesNote 1, se font attribuer le poids de stabilisation, ce qui leur attribue en fait le poids de la résidence principale.

 [an error occurred while processing this directive]
Date de modification :