Base de données longitudinales sur l’immigration (BDIM) – Rapport technique, 2022
5 Traitement des données

Passer au texte

Début du texte

5.1 Traitement

Plusieurs organismes gouvernementaux participent à la création et au traitement de la BDIM. De la collecte initiale des données à la diffusion en passant par le traitement, la coopération de ces organismes est nécessaire pour fournir la qualité élevée des données qu’attentent les utilisateurs des données de Statistique Canada. À chaque étape de la séquence de traitement, des vérifications attentives, manuelles et automatiques, de la qualité des données sont effectuées et des boucles de rétroaction servent à corriger toute erreur détectée à la source. La section suivante décrit brièvement le processus annuel de traitement qui permet de mettre la BDIM à jour.

Figure 3 Résumé du déroulement du processus de création de la BDIM

Description pour la Figure 3

Des fichiers d'entrée sont reçus. Des données sur l'immigration, précisément le fichier des immigrants reçus, le fichier des résidents non permanents et le fichier de la citoyenneté, sont reçus du Ministère IRCC. Des données fiscales, précisément le fichier T1, le fichier de la Prestation fiscale canadienne pour enfants (PFCE) et le fichier T4, sont reçus de l'ARC. Après la réception des fichiers, des couplages d’enregistrements sont faits pour identifier les déclarants fiscaux. Puis, les fichiers finaux de la Base de données longitudinales sur l'immigration (BDIM) sont produits. À partir des données sur l'immigration, le PNRF, PNRF_Nonfilers, PNRF_extra, NRF_Permit et NRF_permit sont créés. À partir des données fiscales, les T1FF sont créés pour les années 1982 à 2021.

Plusieurs modules ont été intégré à la BDIM: le module sur les services d’établissement selon la BDIM 2022), le module sur les salaires, et le module sur les enfants, de même que le fichier sur les données d'entrée express.

Note : Voir le glossaire pour connaître les définitions des acronymes. La source de cette figure est Statistique Canada.

Comme le montre la figure 3 (les fichiers finaux sont nommés avec l’acronyme anglais dans la BDIM ), Statistique Canada reçoit d’abord les données de T1 de l’Agence du revenu du Canada (ARC), dans un fichier intitulé « Fichier maître des particuliers » et d’autres fichiers de données fiscales. Les fichiers de données fiscales servent alors à créer le FFT1, au sein duquel les personnes sont couplées à leurs conjoints et à leurs enfants par un identificateur commun et des variables géographiques sont créées. Statistique Canada effectue des vérifications manuelles de la qualité et compare les estimations du FFT1 à d’autres sources de données, comme le recensement (pour les années de recensement) et l’Enquête sur la dynamique du travail et du revenu, ainsi que des statistiques de revenu annuel que produit l’ARC.Note

En matière d’immigration, IRCC fournit les données relatives aux immigrants admis, aux résidents non permanents et citoyens qui sont utilisées pour produire la BDIM. Ces données servent à créer le Fichier des immigrants reçus (FIR) et le Fichier des résidents non permanents (FRN). On considère que les fichiers FIR et FRN sont des recensements complets des permis de résidence permanente et temporaire qu’a délivrés IRCC depuis 1980.

Outre l’ajout des renseignements de l’année d’imposition la plus récente, une vérification complète des années précédentes a lieu afin d’ajouter des données fiscales pour toute nouvelle personne couplée. Cela peut signifier que les enregistrements de déclaration de revenus d’un immigrant admis ou d’un résident non permanent peuvent ne pas être couplés dans la BDIM une certaine année, mais que ses déclarations de revenus suivantes peuvent être couplées pour une année ultérieure. À mesure que la méthodologie s’améliore, la vérification rétroactive peut permettre de coupler également toutes ses déclarations de revenus antérieures, si elles figurent dans le FFT1. C’est ainsi qu’après le traitement des données fiscales les plus récentes, des personnes admises et ayant produit une déclaration de revenus plusieurs années auparavant peuvent encore être ajoutées à la BDIM. Lorsque plusieurs admissions depuis 1980 existent pour une personne, on conserve les données de sa première admission.

Bien que les déclarations de revenus d’une année donnée soient généralement produites au printemps de l’année suivante (p. ex. déclaration des revenus de 2013 en 2014), des exceptions existent. Parfois, une personne produit sa déclaration de revenus plus tard dans l’année et n’est alors pas incluse dans le traitement des T1 qu’effectue Statistique Canada pour cette année-là. Lorsque ce fichier est transmis aux fins de traitement pour la BDIM, ces déclarants retardataires ne sont pas inclus et ne le seront pas non plus lors du traitement de l’année suivante, puisque le FFT1 n’est pas mis à jour. De la même manière, les personnes qui produisent leur déclaration de revenus pour des années antérieures ne sont pas ajoutées à la BDIM pour ces années, puisque les FFT1 des années précédentes ne sont pas mis à jour. Dans ces cas, la première déclaration de ces personnes effectuée au moment attendu s’affichera comme leur première année dans la base de données.

Pour l’instant, on exécute une série de programmes pour évaluer la qualité des données et les taux de couplage, afin d’éviter tout doublon et de signaler les valeurs aberrantes. Une fois la base de données couplée, elle est jugée complète et prête à être mise à disposition.

Finalement, la base de données consiste en des fichiers SAS, un fichier de données fiscales par année depuis 1982 (IMDB_T1FF_&YEAR) et des fichiers sur les données relatives à l’immigration (PNRF_1980_2022, PNRF_EXTRA_1980_2013, PNRF_1952_1979 et NRF_PERMIT_1980_2022). Tous ces fichiers sont décrits dans la section 2. L’identificateur personnel unique de la BDIM (IMDB_ID) sert à relier tous ces fichiers (voir l’annexe D.1 pour des conseils de programmation).

5.2 Couplage du fichier des résidents non permanents (FRN)

Le Fichier des résidents non permanents (FRN) qu’IRCC fournit couvre les enregistrements de permis de résidence temporaire délivrés à partir de 1980. Il fournit des données démographiques sur les résidents non permanents ainsi que des renseignements détaillés sur leur permis, tels que le type de permis et leur plage de validité.

Le FRN contient des millions d’observations. Elles comprennent cependant des doublons, selon lesquels une même personne peut compter plusieurs identifiants différents. Le problème provient principalement d’enregistrements à la fin des années 1980 pour lesquels le numéro d’identification de la personne initiale a été perdu. Ces enregistrements ont été supprimés en couplant le FRN à lui-même. Cela a permis de déterminer qu’environ 220 000 enregistrements (environ 400 000 observations) étaient des doublons. Dans les cas où les deux enregistrements de résidents non permanents possédaient chacun un enregistrement d’admission, le lien de doublon a été supprimé (ce qui s’applique à moins de 1 000 enregistrements), puisqu’on considère que le fichier d’établissement contient des identifiants uniques. Après nettoyage, il ne reste que des résidents non permanents distincts.

Les deux fichiers relatifs à l’immigration (FIR et FRN) contiennent des données démographiques. Toutefois, ces données démographiques ne sont pas toujours cohérentes. Cela se produit lorsque plusieurs sources sont disponibles ou en cas de conflit. Il a été décidé que les données du FIR relatives au Fichier intégré des résidents permanents et non permanents (FRPN) seraient conservées, du fait de problèmes de qualité concernant les données du FNR au cours de ses premières années.

5.3 Variables dérivés inclus dans le FFT1

Une fois que les couplages d’enregistrements se sont effectués, on ajoute au FFT1 des variables relatives à l’immigration pour les immigrants et les résidents temporaires.

Pour l'année fiscale 2020, de nouvelles variables ont été ajoutées à la FFT1 pour tenir compte des paiements de transfert gouvernementaux COVID-19, qui comprennent la prestation canadienne de rétablissement d'urgence (ERB_CERB), la prestation canadienne de rétablissement en cas de maladie (ERB_CERB), les paiements COVID pour les bénéficiaires du SRG (GIS_COVID) et les paiements COVID pour les bénéficiaires de la SV (OAS_COVID), parmi d'autres variables supplémentaires. Par défaut, ces paiements COVID-19 étaient inclus dans les calculs des variables FFT1: Autres revenus (OI), Suppléments fédéraux nets (NFSL) et Pension de sécurité de la vieillesse (OASP). Ces trois variables ont été redéfinies dans la BDIM en supprimant toutes les variables liées aux paiements COVID-19, afin de mieux les aligner sur les variables fiscales du DAL.

Pour identifier le statut d’immigration d’un déclarant, l’année d’admission (LANDING_YEAR) et la première année de validité (FIRST_EFFECTIVE_YEAR) ont été créé. Par conséquent, l’indicateur de résident non permanent TR_IND, a été enlevé.

Des variables dérivées indiquant et décrivant les familles sont également créées. Dans chaque FFT1 annuel, il est possible d’estimer le nombre d’immigrants dans une famille admise depuis 1980 (variable IMM80F&year). Cependant, ceci peut être une sous-estimation car cette variable inclut seulement les déclarants et non les enregistrements imputés, donc les enfants sont sous-estimés. Il est également possible de déterminer si l’immigrant est un conjoint (pour l’année d’imposition donnée) et si ce conjoint est immigrant ou résident non permanent (variable SP_IDI&year). Les utilisateurs de données peuvent recenser les immigrants d’une même famille, pour chaque année d’imposition, à l’aide de la variable de numéro d’identification de la famille (FIN_). Cette variable présente la même valeur pour tous les membres d’une famille, c’est-à-dire l’identifiant IMDB_ID du membre de la famille le plus âgé admis depuis 1980. La qualité de ces variables dépend de la qualité du couplage d’enregistrements et des fichiers FFT1, puisque seules les personnes couplées sont comptabilisées (voir la section 7.5).

Les variables ayant le préfixe TNK représentent le nombre d’enfants déclarés d’un certain âge dans les familles d’immigrants et de résidents non permanents (voir la composante relative aux impôts du dictionnaire des données pour de plus amples détails). Le terme « enfant » désigne toute personne célibataire vivant avec un ou deux parents; un enfant peut être de tout âge. Au tableau 3, par exemple, la famille d’immigrants dont le numéro est IM19801 a deux enfants de 1 an en 2011 (TNK01I2011), alors que la famille IM19873 a trois enfants en 2011 (TNKIDI2011), un de 0 an (TNK00I2011), un de 1 an (TNK01I2011) et un de plus de 18 ans (TNK19I2011). L’immigrant IM20105 n’avait pas d’enfant en 2011.


Tableau 3
Exemple de variables relatives au nombre d'enfants dans une famille
Sommaire du tableau
Le tableau montre les résultats de Exemple de variables relatives au nombre d'enfants dans une famille. Les données sont présentées selon IMDB_ID (titres de rangée) et TNK00I2011, TNK01I2011, TNKxxI2011, TNK19I2011 et TNKIDI2011, calculées selon nombre unités de mesure (figurant comme en-tête de colonne).
IMDB_ID TNK00I2011 TNK01I2011 TNKxxI2011 TNK19I2011 TNKIDI2011
nombre
IM19801 0 2 0 0 2
IM19802 0 1 0 0 1
IM19873 1 1 0 1 3
IM19994 0 0 0 1 1
IM20105 0 0 0 0 0

5.4 Variables dérivées incluses dans le FRPN

Lorsque le FRPN est produit, certaines variables relatives aux tendances de déclaration de revenus sont dérivées et incluses au fichier. La variable FIRST_TAX_YEAR indique la première année pour laquelle les données fiscales sont disponibles pour une personne donnée, alors que la variable LAST_TAX_YEAR indique la dernière année pour laquelle les données fiscales sont disponibles. Il convient de noter que des données fiscales ne sont pas nécessairement disponibles chaque année entre la première et la dernière année d’imposition. Par exemple, un cas où les variables First_tax_year=1982 et Last_tax_year=2012 existent ne signifie pas nécessairement que le déclarant a produit une déclaration de revenus de manière continue; les données fiscales pour 2006 peuvent manquer, par exemple. Lorsqu'il manque des variables pour la première et la dernière année d'imposition, FIRST_TAX_YEAR et LAST_TAX_YEAR, c'est pour désigner les non-déclarants ou les personnes qui n'ont jamais produit de déclaration de revenus auparavant. Il s'agit d'une mise à jour depuis la BDIM de 2018, les déclarants et les non-déclarants ont été fusionnés depuis.

La variable de déclarant avant l’admission PREFILER_IND sert à signaler les immigrants pour lesquels des données existent dans le FFT1 avant leur année d’admission. La plupart de ces cas ont été couplés à des enregistrements de résidents non permanents, comme on s’y attend (voir la section 7.2.4 pour de plus amples détails).


Date de modification :