Dictionnaire des données administratives longitudinales, 2020

Date de diffusion : le 16 novembre 2022

Passer au texte

Début du texte

1 Introduction

La Banque de données administratives longitudinales (DAL) est un sous-ensemble du Fichier sur la famille T1 (T1FF). Le T1FF est un fichier transversal annuel de l’ensemble des déclarants et de leur famille. Les familles de recensement sont créées à partir des renseignements fournis annuellement à l’Agence du revenu du Canada dans les déclarations de revenus des particuliers. Les conjoints légaux et les conjoints de fait sont tous deux reliés à partir du numéro d’assurance sociale (NAS) de leur conjoint inscrit sur le formulaire d’impôt ou par un appariement effectué en fonction du nom, de l’adresse, du sexe et de l’état matrimonial. Les enfants sont identifiés à partir d’un algorithme semblable et de fichiers complémentaires. Avant 1993, les enfants non déclarants étaient identifiés à partir des renseignements sur la déclaration de revenus de leurs parents. Le programme d’allocation familial fournissait d’autres renseignements afin d’identifier les enfants. Depuis 1993, les renseignements tirés du programme de prestations fiscales pour enfants servent à cette fin.

La banque DAL constitue un échantillon aléatoire de 20 % du T1FF. La sélection de la banque DAL est fondée sur le NAS d’une personne. Il n’y a aucune restriction d’âge, mais les personnes qui n’ont pas de NAS ne peuvent être incluses que dans la composante familiale. Une fois qu’une personne est sélectionnée dans la banque DAL, elle demeure dans l’échantillon et est sélectionnée chaque année à partir du T1FF si elle apparaît dans le T1 de cette l’année. Les personnes choisies par la banque DAL sont reliées au cours des années par un numéro d’identification DAL unique (LIN_I), généré à partir de leur NAS afin de créer un profil longitudinal de chaque personne. À la banque DAL s’ajoute annuellement un échantillon transversal de nouveaux déclarants afin que la banque représente approximativement 20 % des déclarants à chaque année. L’échantillon de 20 % a augmenté au fil des ans : 3,2 millions de personnes en 1982; 4,05 millions en 1992; 4,7 millions en 2002; et 5,3 millions en 2012. Cette hausse reflète la croissance de la population canadienne et l’augmentation de l’incidence à remplir une déclaration de revenus en raison de l’introduction du crédit pour la taxe de vente fédérale en 1986 et du crédit pour la taxe sur les produits et services en 1989.

La banque DAL est structurée selon quatre niveaux d’agrégation, soit les particuliers, les époux/parents, les familles et les enfants. Elle comprend des renseignements sur le revenu et les caractéristiques démographiques des particuliers et de leur famille, ainsi que d’autres données fiscales, pour les années 1982 à 2020. Des années additionnelles s’y ajoutent à mesure que les données sont produites. Des changements dans les lois fiscales et dans le contenu du formulaire T1 font que certaines variables ne sont pas présentes toutes les années et que les définitions comportent des incohérences mineures d’une année à l’autre.

La DAL obtient également de l’information grâce à des couplages de microdonnées avec d’autres sources de données administratives, y compris des renseignements sur le compte d’épargne libre d’impôt (CELI), des renseignements sur la propriété des sociétés privées tirés de l’annexe 50 du formulaire d’impôt T2 et des renseignements sur l’immigration tirés des données administratives du Fichier d’établissement. De plus, une clé de couplage se trouve dans la Base de données longitudinales sur l’immigration (BDIM) – une base de données contenant les dossiers d’immigration de 1980 à aujourd’hui – qui permet d’effectuer des recherches à l’aide d’une base de données DAL_BDIM couplée. Tous les couplages de microdonnées ont été approuvés par les organismes de gestion et de protection de la vie privée compétents de Statistique Canada. D’autres renseignements sont accessibles sur le site.

La banque DAL a été conçue pour servir d’outil de recherche à partir duquel des requêtes personnalisées peuvent être préparées. Le présent dictionnaire a donc été créé dans le but d’aider les chercheurs à identifier le genre
de renseignements pouvant être extraits de la banque DAL. Ce dictionnaire identifie et définit les variables de la banque DAL en tenant compte des changements historiques.

2 Confidentialité

Statistique Canada assure la confidentialité des données fiscales des particuliers. Seuls les renseignements agrégés qui se conforment aux normes de confidentialité de la Loi sur la statistique sont diffusés. La banque DAL est située au sein de Statistique Canada et toutes les extractions sont effectuées sur place. Seuls les employés de Statistique Canada peuvent accéder directement à ces données. Des informations supplémentaires concernant les mesures de confidentialité peuvent être obtenues auprès du Service à la Clientèle.

3 Géographie

Les données de la banque DAL sont offertes à divers niveaux de géographie, y compris le Canada, les provinces/ territoires et les régions (telles les divisions de recensement (DR), les régions métropolitaines de recensement/ agglomérations de recensement (RMR/AR), les régions économiques (RE), les circonscriptions électorales fédérales (CEF), etc. Les données relatives à ces régions ne font pas partie de la banque DAL, mais elles sont disponibles dans la banque DAL par le biais du fichier de conversion des codes postaux). Il est à noter que les classifications géographiques de la DAL sont fondées sur la conversion des régions définies selon le code postal à d’autres limites géographiques.

4 Format et contenu du dictionnaire

Voici une brève description des huit sections du Dictionnaire de la banque DAL.

Le Registre de la banque DAL (section 5) est un fichier qui est utilisé conjointement avec les fichiers annuels de la banque DAL. Ce registre contient les années pour lesquelles un individu fait partie de la banque DAL et fournit des renseignements sur le sexe, l’année de naissance et l’année de décès du particulier. Cette section offre une brève description de ce fichier et décrit de quelle façon il peut servir à améliorer l’analyse des données de la banque DAL.

La section Aide pour la programmation (section 6) offre des renseignements sur la rédaction de programmes pour l’utilisation des données à partir de la banque DAL. Ces renseignements fourniront une aide aux personnes qui veulent accéder plus efficacement aux données des fichiers de la banque DAL par l’utilisation efficiente du langage de programmation.

La Conception des acronymes des variables DAL (section 7) décrit la structure des acronymes des variables. Cette section explique comment interpréter les acronymes et fournit des renseignements sur les niveaux d’agrégation.

La section Quoi de neuf (section 8) est une description des changements apportés à la base de données administratives longitudinales (DAL) depuis la dernière version de celle-ci. Elle fournit également une liste des nouvelles variables ajoutées à la base de DAL pour l’année de revenu courante. Ces nouvelles variables peuvent également s’appliquer à des années antérieures. Les utilisateurs sont encouragés à vérifier chaque nouvelle variable afin de déterminer les années applicables pour chacune.

La section Définitions des variables DAL (section 9) liste en ordre alphabétique chacune des variables selon son nom. Les renseignements suivants sont également fournis pour chaque variable :

Le Nombre de personnes et les montants relatifs aux particuliers (section 10), indique le nombre de personnes et les montants en dollars déclarés pour de nombreuses variables au niveau d’agrégation des particuliers. Le nombre de personnes correspond à la taille de l’échantillon de la banque DAL à laquelle s’ajoutent les montants.

La section Définitions des variables du revenu total (section 11) identifie et définit les variables du revenu total et met en relief les changements historiques. On y trouve aussi des tableaux donnant un aperçu et une comparaison entre les variables, notamment le revenu marchand, ainsi que des définitions du revenu total de l’Agence du revenu du Canada (ARC) et de la La Division de la statistique du revenu (DSR).

Les tableaux élaborés dans cette section sont les suivants :

Enfin, Comment obtenir d’autres renseignements, imprimé dans la partie intérieure de la page de couverture, offre des renseignements sur la façon de nous joindre par téléphone, courrier, télécopieur ou courrier électronique, partout au Canada.

5 Registre de la banque DAL

Le registre de la banque DAL est un fichier de données d’accompagnement aux fichiers annuels de la banque DAL. Ce registre comprend un nombre choisi de variables pour l’ensemble des personnes présentes à un moment quelconque dans la banque DAL. Ces variables ont des caractéristiques qui doivent demeurées constantes sur une période de temps et qui, par conséquent, peuvent ne pas être identifiées dans un fichier annuel particulier. Un nouveau registre de la banque DAL est créé chaque année en ajoutant le nouveau fichier annuel de la banque DAL, élaboré à partir des renseignements sur les déclarants, c’est-à-dire les déclarants vivants, décédés et les personnes imputées. Le registre courant comprend donc les renseignements les plus récents sur les personnes incluses dans la banque DAL. Dans de rares cas, les nouveaux renseignements sur les particuliers peuvent différer des renseignements compris dans le fichier existant. Dans ces cas, les renseignements les plus récents surclassent les renseignements compris dans le registre de la banque DAL existant.

Le registre de la banque DAL est un outil de référence rapide qui fournit des données de base sans avoir à accéder aux fichiers annuels. Par exemple, des renseignements tels que le nombre de particuliers dans la banque DAL selon l’âge et le sexe pour une année donnée peuvent être totalisés directement à partir du registre. De plus, le registre de la banque DAL peut être employé conjointement avec les fichiers annuels.

Voici une liste des variables trouvées dans le registre :

6 Aide pour la programmation

Cette section offre des renseignements relatifs à la programmation pour les personnes qui veulent accéder plus efficacement aux données de la banque DAL par l’utilisation efficiente du langage de programmation. Il est bon de noter que les personnes peuvent entreprendre leur propre programmation, mais que seuls quelques employés de Statistique Canada peuvent effectuer des manipulations. L’accès au fichier de la banque DAL est limité afin d’assurer la confidentialité des données fiscales d’une personne. De plus, les données recueillies sont vérifiées selon l’application d’une série de règles conçues de façon à prévenir la divulgation.

Il y a deux genres de fichiers DAL—les fichiers annuels de la banque DAL et le registre de la banque DAL (pour plus de détails sur le registre de la banque DAL, consultez la section 5, Registre de la banque DAL). Les variables DAL sont identifiées par le nom de la variable, qui comporte trois parties : 1) l’acronyme, 2) le niveau d’agrégation et 3) l’année (l’extension de quatre chiffres correspondant à l’année existe pour la plupart des variables, mais pas dans tous les cas). Les observations contenues dans les fichiers de la banque DAL sont triées selon une variable nommée lin__i (notez qu’il n’y a pas d’extension de l’année pour cette variable) qui permet également d’établir un lien au cours des années.

L’accès aux données est effectué à partir du langage de programmation SAS. La page suivante comprend un exemple d’un programme SAS conçu pour accéder aux données de la banque DAL. Les trois premières lignes du programme correspondent à la désignation des bibliothèques (les fichiers d’entrée sont associés aux deux premières lignes alors que les fichiers de sortie sont associés à la dernière ligne de la bibliothèque). Les fichiers d’entrée étant en format SAS, ils sont accessibles au moyen des énoncés SET ou MERGE. L’objectif du programme est d’utiliser la banque DAL de 20 % pour identifier le nombre de personnes en Ontario recevant des prestations d’assistance sociale et n’ayant aucun revenu d’emploi provenant des feuillets T4, selon le sexe et l’année (dans ce cas-ci 2000 à 2002. Il est généralement recommandé d’utiliser les variables disponibles dans les fichiers du registre plutôt que celles des fichiers annuels parce que le registre renferme les données mises à jour. Par exemple, le programme ci-dessous utilise sxco_i, une variable du registre plutôt que sxco_i&yr, la variable incluse dans les fichiers annuels de la banque DAL. Les variables flag_i&yr du registre sont utilisées pour identifier les particuliers qui ont rempli une déclaration au cours d’une année donnée. Dans ce programme, seuls les particuliers qui ont rempli une déclaration toutes les années entre 2000 et 2002 sont sélectionnés. À la fin du programme, quatre tableaux sont créés à partir du fichier de données créé. Remarquez qu’en raison des besoins de confidentialité, les variables wgt__i (pour les banques DAL de 10 %) et wgt2_i (pour la banque DAL de 20 %) qui correspondent à différents poids doivent être utilisées toutes les fois qu’une procédure SAS telle que FREQ ou LOGISTIC est évoquée.

Avec le langage de programmation SAS, il est important d’établir une distinction entre les valeurs manquantes et les zéros présents dans les champs numériques. En SAS, la plupart des opérations mathématiques effectuées avec des valeurs manquantes produiront des valeurs manquantes. Dans la banque DAL, pour les années pendant lesquelles un particulier est présent, les variables numériques qui ne s’appliquent pas à cette personne ont pour valeur zéro. Par exemple, si une personne hors famille a rempli une déclaration en 2000, la valeur de RRSPSI2000 (cotisations au REER du conjoint) sera alors zéro. Par contre, si cette personne n’a pas rempli de déclaration en
2000, la valeur sera manquante. Par conséquent, à titre de mesure préventive, il est suggéré d’initialiser à zéro toutes les variables numériques manquantes qui doivent être utilisées dans les expressions mathématiques.

Exemple d’un programme SAS pour la banque DAL

* Exemple d’un programme SAS pour la banque DAL ;

libname source1 ‘/LADdata/data1;           * premier échantillon de 10 % ;
libname source2 ‘/LADdata/data2;          * deuxième échantillon de 10 % ;
libname Out ‘/LADuser/xxxx/data’;           * répertoire de l’utilisateur ;

* L’objectif de ce programme est d’utiliser la banque DAL de 20 % pour obtenir le nombre de personnes recevant des prestations d’aide sociale qui n’avaient aucun revenu d’emploi (feuilets T4) en Ontario, selon le sexe et l’année (dans ce cas-ci 2000 à 2002). Les données sur les provinces et les revenus d’emploi proviennent des fichiers annuels DAL tandis que l’indicateur de sexe provient du registre DAL 2002. ;

* La première étape est de créer une fichier de données contenant toute l’information nécessaire à la création de nos tableaux. Ce fichier est nommé ASOnt et est sauvegardé dans le répertoire de sortie. Le numéro d’identification longitudinal (LIN__I) est utilisé pour fusionner les fichiers annuels de la banque DAL. ;

data out. ASOnt;
merge
source1.lad2000(where=(prco_i2000 = 5) keep=lin__i  prco_i2000 saspyi2000 t4e__i2000) source2.lad2000(where=(prco_i2000 = 5) keep=lin__i  prco_i2000 saspyi2000 t4e__i2000) source1.lad2001(where=(prco_i2001 = 5) keep=lin__i prco_i2001 saspyi2001 t4e__i2001) source2.lad2001(where=(prco_i2001 = 5) keep=lin__i  prco_i2001 saspyi2001 t4e__i2001) source1.lad2002(where=(prco_i2002 = 5) keep=lin__i  prco_i2002 saspyi2002 t4e__i2002) source2.lad2002(where=(prco_i2002 = 5) keep=lin__i  prco_i2002 saspyi2002 t4e__i2002) source1.reg2002(keep=lin__i sxco_i flag_i2000-flag_i2002 wgt2_i)
source2. reg2002(keep=lin__i sxco_i flag_i2000-flag_i2002 wgt2_i);

by lin__i ;

If flag_i2000=1 and flag_i2001=1 and flag_i2002=1; *l’individu doit être un déclarant pour les 3 années ;

* On construit une variable dichotomique identifiant les prestataires de l’aide sociale à chaque année. Les trois variables résultantes prennent comme valeur 1 ou 0 : flag_sa2000, flag_sa2001 et flag_sa2002. ;

If (t4e__i2000=0 and saspyi2000>0) then flag_sa2000 = 1 ;
else flag_sa2000 = 0 ; if (t4e__i2001=0 and saspyi2001>0)  then flag_sa2001 = 1 ; else flag_sa2001 = 0 ;
if (t4e__i2002=0 and saspyi2002>0) then flag_sa2002 = 1 ;
else flag_sa2002 = 0 ;

run ;

* La procédure ‘freq’ de SAS est utilisée pour produire nos tableaux. Par la suite, il faudrait s’assurer que les règles relatives à la confidentialité sont respectées. ;

proc freq data = out. ASOnt;

tables sxco_i*flag_sa2000*flag_sa2001*flag_sa2002 /missing;
weight wgt2_i ;

run ;

* Fin de l’exemple de programme SAS;

7 Conception des acronymes des variables de la Banque DAL

La plupart des variables de la banque DAL ont un acronyme de dix caractères. Chaque acronyme est formé de trois parties, soient le nom de la variable (cinq caractères), le niveau d’agrégation (un caractère) et l’année civile (quatre caractères), p. ex. XTIRCI2000.

Le nom de la variable forme la composante principale de l’acronyme. Les caractères identifient le genre de renseignements qu’offre la variable (consultez la section 9).

Le niveau d’agrégation à un caractère fournit des renseignements sur le membre de la famille de recensement par rapport au niveau d’agrégation considéré. Quatre valeurs sont possibles : ’I’, ’P’, ’F’ et ’K’ qui représentent respectivement un particulier, un parent, une famille et un enfant. Les types de famille sont établis en fonction de la situation de la famille à la fin de l’année d’imposition. Voici des détails sur les niveaux d’agrégation :

Les quatre caractères de l’année civile identifient l’année associée à la variable. Les données de la banque DAL sont stockées dans des fichiers distincts pour chacune des années civiles ; toutes les variables pour une année du fichier auront donc les mêmes quatre caractères de l’année civile. La seule exception dans les fichiers annuels est la variable LIN__I, le numéro d’identification de la banque DAL du particulier, qui est offerte pour chaque observation présente dans chaque fichier annuel, sans que l’année civile n’apparaisse dans l’acronyme (notez qu’il y a également une variable pour le LIN du conjoint (LIN__PyyyyNote ) qui incorpore l’année au nom de l’acronyme). Dans le registre, les exceptions sont LIN__I, SXCO_I, YOB__I, YOD__I, LNDYRI, TTNFLI, et IMMFLI, qui représentent respectivement le LIN, le sexe, l’année de naissance, l’année de décès, l’année d’établissement de l’immigrant, l’indicateur de NAS temporaire, et l’indicateur d’immigrant canadien.

8 Quoi de neuf — DAL 2020

Un certain nombre de modifications et d'améliorations ont été apportées à la DAL et au dictionnaire de données de la DAL depuis la diffusion de la DAL 2019. Il n'y a pas eu de mise à jour ou de modification des variables existantes. Cependant, trois nouvelles variables ont été ajoutées ainsi qu'une section sur les prestations de COVID.

Nouvelles variables

Les trois nouvelles variables ajoutées à la base de données DAL 2020 sont la variable des frais d'abonnement aux nouvelles numériques (DNSTCC_), le crédit d'impôt sur le travail en journalisme canadien (CTRCC_) et le crédit canadien pour la formation (CJLTCC_). Des descriptions plus complètes se trouvent à la section 9.

La DAL a également ajouté une nouvelle section contenant 18 autres variables spécifiques aux prestations de soutien COVID. Il s'agit des programmes et initiatives de prestations COVID pour l'année fiscale 2020, dont certains étaient limités dans le temps et peuvent déjà avoir été supprimés. Le tableau ci-dessous répertorie les noms et descriptions des variables pour les nouveaux ajouts à la DAL 2020, avec une explication plus complète fournie dans la section principale de définition des variables.

DAL COVID avantages variables
Sommaire du tableau
Le tableau montre les résultats de Nouvelles variables accessibles dans la BDAL à partir de l’année de revenu 2019. Les données sont présentées selon NOUVELLES VARIABLES (titres de rangée) et Années disponibles(figurant comme en-tête de colonne).
Prestations fédérales COVID en cas d'urgence et de rétablissement
Prestation canadienne d’urgence CV19CERB_
Prestation canadienne d'urgence pour les étudiants CV19CESB_
Prestation canadienne de la relance économique pour proches aidants CV19CRCB_
Prestation canadienne de maladie pour la relance économique CV19CRSB_
Paiement COVID pour les personnes handicapées / parents d’enfants handicapés CV19DISB_
Prestation canadienne de la relance économique net – PCRE moins remboursements CV19CRBN_
Paiement COVID pour les bénéficiaires de l'Allocation canadienne pour enfants (ACE) CV19CCB_
Paiement COVID pour les bénéficiaires du SRG/Allocation CV19GIS_
Paiement COVID pour les bénéficiaires du crédit de TPS CV19GST_
Paiement COVID pour les bénéficiaires de la SV CV19OAS_
Prestations d'urgence et de rétablissement du COVID provincial et territorial
Paiements provinciaux/territoriaux d'aide financière COVID CV19B200_
Prestation d'urgence de la Colombie-Britannique pour les travailleurs CV19BCEBW_
Manitoba - Crédit pour la relance économique des personnes âgées CV19MNSRC_
Soutien aux familles de l'Ontario CV19ONSF_
Paiement du COVID pour les bénéficiaires du crédit d'impôt Action Climat CV19BCCAT_
Supplément du COVID pour les personnes âgées de la Colombie-Britannique CV19PSSBC_
Amélioration du programme GAINS COVID de l'Ontario CV19PSSON_
Total de toutes les prestations du COVID
Total de toutes les prestations d'urgence et de rétablissement du COVID CV19BENS_

9 Définitions des variables de la Banque DAL

10 Nombre de personnes et montants relatifs aux particuliers, 2019 à 2020

11 Définitions des variables du revenu total

La section Définitions des variables du revenu total offre une définition précise des trois mesures du revenu total disponibles à partir de la banque DAL, soit :

La première mesure du revenu total, TIRC, correspond à la définition du revenu total de l’Agence du revenu du Canada – Impôt, selon le formulaire T1. La deuxième, XTIRC, est dérivée par la Division de la statistique du revenu de Statistique Canada comme une mesure d’analyse statistique plus appropriée. Les composantes du revenu comprises dans la variable XTIRC sont décrites de façon générale dans le tableau 1, Composantes de XTIRC en 2020, et de façon détaillée dans le tableau 5, Définitions de XTIRC, 1982 à 2020.

La différence la plus marquée entre XTIRC et TIRC a été établie après 1986 alors que le revenu non imposable a été ajouté à la variable XTIRC. En 1986, le gouvernement du Canada a introduit les crédits pour taxe fédérale sur les ventes (TFV) à l’intention des personnes à faible revenu. Pour déterminer l’admissibilité à ces crédits, les déclarants devaient indiquer leur revenu non imposable tel que déterminé par les prestations de l’assistance sociale, le supplément de revenu garanti, l’allocation du conjoint et les indemnités pour accident du travail. Depuis que le revenu non imposable a été ajouté à la variable XTIRC en 1986, les valeurs XTIRC actuelles et les valeurs qui précèdent 1986 doivent être comparées avec précaution. Une augmentation de la variable XTIRC de 1985 à 1986, par exemple, peut simplement refléter l’indication d’un revenu de l’assistance sociale sur le formulaire T1 de 1986 contrairement à celui de 1985. Il peut n’y avoir eu aucune hausse de revenu.

De nouvelles différences sont le retrait des revenus provenant d’un REER pour les personnes de moins de 65 ans et l’ajout de l’exonération à l’égard d’un revenu d’emploi d’un Indien.

Une autre différence entre TIRC et XTIRC est que la première variable comprend les gains en capital mais pas la seconde. Le tableau 4, Différences entre TIRC et XTIRC, offre plus de détails sur les autres différences entre ces variables.

La troisième mesure du revenu total offerte à partir de la banque DAL est le revenu marchand (MKINC). La variable MKINC est calculée à partir de la variable XTIRC en éliminant les paiements de transfert du gouvernement. Les composantes de MKINC sont décrites de façon générale dans le tableau 2, Composantes MKINC, 1982 à 2020 alors que le tableau 6, Définitions de MKINC, 1982 à 2020, présente les dérivations en détail.

Outre la modification de la variable XTIRC, en 1986, causée par l’introduction des crédits pour taxe fédérale sur les ventes, des changements dans la législation fiscale et dans le contenu du formulaire d’impôt ont donné lieu à des différences dans la disponibilité des composantes du revenu total. Un plus grand nombre de variables étaient disponibles. En 1992, par exemple, les composantes du revenu non imposable étaient déclarées séparément sur le formulaire T1, ajoutant ainsi trois variables à la banque DAL : NFSL qui désigne le versement net des suppléments fédéraux (SRG et AAC), WKCPY qui désigne les indemnités pour accident du travail et SASPY qui désigne les prestations de l’assistance sociale. Entre 1986 et 1991, seul le montant total de ces trois paiements était déclaré. Le tableau 3, Historique des composantes de XTIRC, présente un historique de ces changements.

En résumé, cette partie du Dictionnaire de la banque DAL présente les composantes des variables TIRC, XTIRC et MKINC pour chacune des années de la banque DAL, soit de 1982 à 2019 :


Date de modification :