Modèle du processus d’un projet de couplage d’enregistrements
Consulter la version la plus récente.
Information archivée dans le Web
L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.
Préambule
Au cours des dix dernières années, le volume de couplages d’enregistrements a considérablement augmenté à Statistique Canada, afin de répondre à des besoins tant analytiques qu’opérationnels. Les projets de couplage font souvent intervenir plusieurs groupes de l’organisme, notamment des préposés au traitement des données, des préposés au couplage des données et des spécialistes de domaines. Actuellement, un éventail de modalités, de processus, de méthodes et d’approches permettent de réaliser des projets de couplage d’enregistrements alors que peu de normes guident ce processus.
En avril 2015, le Comité de coordination de l’analyse de Statistique Canada a créé le Groupe de travail sur le couplage d’enregistrements aux fins suivantes :
- parvenir à une compréhension commune des concepts et processus intervenant dans les couplages d’enregistrements effectués à Statistique Canada;
- repérer les défis et les possibilités d’amélioration des activités de couplage d’enregistrements;
- relever ou élaborer des approches normalisées et des pratiques recommandées permettant d’effectuer, de valider et de documenter des projets de couplage d’enregistrements, afin de veiller au respect des politiques et directives existantes, le cas échéant.
Pour atteindre le premier objectif, le Groupe de travail sur le couplage d’enregistrements a entrepris d’établir les grandes lignes du processus employé dans le cadre de projets de couplage d’enregistrements, afin de refléter les pratiques et activités générales intervenant dans le couplage d’enregistrements à Statistique Canada. L’organisme représente un environnement de couplage d’enregistrements complexe comprenant des ensembles de données sociales et économiques variées couplées au niveau des particuliers et des entreprises, à l’aide de toute une gamme de méthodes et à des fins diverses, notamment élaborer de nouveaux ensembles de données couplées pour étayer des recherches, remplacer des données dans le cadre d’enquêtes en cours et créer des registres à des fins opérationnelles. En tenant compte de cette complexité, l’objectif du Groupe de travail sur le couplage d’enregistrements était d’établir les grandes lignes d’un processus « générique » reflétant les pratiques communes utilisées au sein de l’organisme ainsi que les processus auxquels il aspire. L’élaboration de ce modèle visait également à ce qu’il serve de manière plus générale à d’autres organismes qui effectuent des couplages d’enregistrements, notamment des organismes nationaux de statistique, tout en reconnaissant que les parties du processus peuvent ne pas toutes s’appliquer à tous les contextes.
Ce rapport décrit le Modèle du processus d'un projet de couplage d'enregistrements. Ce modèle se fonde sur le Modèle générique du processus de production statistique, version 5.0 qu’a élaboré les groupes de travail communs UNECE/EUROSTAT/OCDE sur les métadonnées statistiques (METIS) pour les processus d’enquête. Il s’inspire également des modèles internationaux de couplage d’enregistrements provenant d’Australie et des États-Unis, ainsi que de méthodologies de couplage d’enregistrements, lorsqu’ils reflètent les pratiques de Statistique Canada. Veuillez noter que ce modèle ne couvre pas l’appariement statistique, autre approche fournissant des renseignements statistiques conjoints à partir de variables recueillies auprès de deux sources ou plus. Un glossaire est également fourni pour aider les lecteurs à interpréter ce modèle de processus (voir l’annexe A).
Description des étapes et des sous processus
Planification du projet
La première métaphase du processus du projet de couplage d’enregistrements porte sur la détermination d’un besoin statistique particulier ou de lacunes statistiques qui justifient de déclencher un projet de couplage d’enregistrements. Une évaluation générale est également menée afin de déterminer si un couplage d’enregistrements est une option possible pour répondre aux besoins et combler le manque de données. Si le couplage est jugé possible, une stratégie initiale de couplage d’enregistrements est élaborée et l’autorisation de poursuivre le projet est demandée. Cette métaphase comprend des consultations avec un éventail d’intervenants, notamment des administrateurs de données, des spécialistes en couplage d’enregistrements, des spécialistes de domaines et des agents responsables de la conformité aux lois, politiques et directives applicables.
1. Détermination des besoins
Cette étape est déclenchée par le besoin de nouvelles données nécessaires pour satisfaire aux exigences statistiques, notamment un nouvel ensemble de données pour étayer la recherche, un remplacement de données dans le cadre d’enquêtes ou la création d’un nouveau registre à des fins opérationnelles. Elle comprend toutes les activités requises pour obtenir des intervenants ou des clients qu’ils définissent leurs besoins détaillés en données et renseignements. Cette étape consiste également à rassembler des renseignements permettant de déterminer si le couplage d’enregistrements est une option viable pour répondre aux besoins.
Cette étape comprend cinq sous-processus qui ont généralement lieu en ordre séquentiel, mais qui peuvent également se dérouler parallèlement, en fonction des besoins. Ces sous-processus sont les suivants :

Description de la figure 1
1.1 Définition des besoins
1.2 Consultation et confirmation des besoins
1.3 Vérification de la disponibilité des données
1.4 Détermination de la faisabilité du couplage d’enregistrements
1.5 Détermination du parrain et de l’administrateur
1.1 Définition des besoins
Ce sous-processus comprend une première étude et la définition d’un besoin ou d’une lacune statistique. Il peut être déclenché par le besoin de nouvelles données nécessaires pour répondre à une nouvelle question de recherche, à une demande d’information ou à un changement dans l’environnement de travail, comme des compressions budgétaires exigeant l’utilisation d’un couplage d’enregistrements pour remplacer les données recueillies au moyen d’une enquête. Il consiste également à examiner les pratiques courantes d’autres organismes (nationaux et internationaux) qui produisent des données semblables, notamment les méthodes qu’ils utilisent. Les besoins peuvent être définis en interne ou par des intervenants ou clients externes.
1.2 Consultation et confirmation des besoins
Ce sous-processus porte sur la consultation des intervenants ou des clients, afin de confirmer en détail leurs besoins en données ou en renseignements. Cette activité peut nécessiter de déterminer les objectifs particuliers de la recherche ou du produit statistique pour mieux définir les concepts sur lesquels se concentrer et pour comprendre les lacunes statistiques. Cette discussion peut exiger la participation de spécialistes de domaines possédant une connaissance approfondie à la fois des concepts en question et des limites des données existantes. Cette discussion peut également nécessiter la participation de gestionnaires d’enquête envisageant l’utilisation d’un couplage d’enregistrements pour améliorer l’utilisation de données administratives existantes en vue de remplacer le contenu d’enquête et ainsi alléger le fardeau du répondant.
L’organisme statistique doit bien comprendre les besoins des utilisateurs pour savoir non seulement ce qu’il doit produire, mais également quand, comment et, peut-être surtout, pourquoi. La compréhension détaillée des besoins des intervenants ou des clients est la partie la plus importante de ce sous-processus.
1.3 Vérification de la disponibilité des données
Ce sous-processus permet de vérifier si les ensembles de données existants peuvent répondre aux besoins des intervenants ou des clients ainsi que les conditions dans lesquelles ils seront disponibles, y compris toute restriction concernant leur utilisation. Une évaluation des autres solutions possibles comprendrait l’examen des ensembles de données existants, notamment des données d’enquête, des bases de données administratives, des données couplées ou autres ensembles de données non statistiques, afin de déterminer s’ils pourraient répondre au besoin de l’intervenant ou du client.
Si un ensemble existant de données ou de données couplées est cerné et qu’il est jugé approprié pour combler la lacune statistique, il convient alors d’explorer les conditions permettant à l’intervenant ou au client d’accéder à ces données. Si aucun ensemble de données existant n’est cerné pour combler la lacune statistique, le projet se poursuit afin d’étudier l’option de couplage d’enregistrements.
1.4 Détermination de la faisabilité du couplage d’enregistrements
Ce sous-processus permet de déterminer si le couplage d’enregistrements est une option viable, en commençant par le repérage des ensembles de données qui pourraient être couplés (c.-à-d. les ensembles de données sources) et de l’unité de couplage (c.-à-d. particuliers, entreprises). Ce couplage peut se faire au moyen d’ensembles de données sources que « détient » l’organisme statistique ou l’organisme de couplage, ou peut nécessiter l’accès à un ensemble de données appartenant à un intervenant externe ou à un client. Il est nécessaire d’examiner les contrats d’acquisition de données existants précisant l’accès et l’utilisation des données, afin de veiller à ce que les ensembles de données sources soient disponibles pour des activités de couplage.
Ce sous-processus comprend également l’examen de la disponibilité et de la qualité de variables d’identification communes à tous les ensembles de données sources (c.-à-d. des variables de couplage), afin de faciliter le processus de couplage d’enregistrements. Les variables couramment utilisées dans le cadre d’un couplage d’enregistrements comprennent les noms (p. ex. les noms de personnes ou d’entreprises), les variables démographiques (p. ex. le sexe ou la date de naissance), les variables géographiques (p. ex. l’adresse et le code postal), les numéros de téléphone et des identificateurs uniques (p. ex. le numéro d’assurance sociale, le numéro d’assurance-maladie ou le numéro d’entreprise). Il convient d’étudier l’accès et l’utilisation de ces variables de couplage dans le contexte du cadre réglementaire et politique régissant les ensembles de données sources. Ce processus comprend également l’examen d’un couplage direct des ensembles de données sources ou au moyen d’un registre central de la population.
Une évaluation initiale du pouvoir discriminant des variables de couplage disponibles permettra en outre de juger de la faisabilité du projet. Des identificateurs uniques ont un fort pouvoir discriminant, alors que des variables, comme le sexe, la date de naissance et les identificateurs géographiques, présentent un pouvoir discriminant moindre. Dans certains cas, l’accès aux ensembles de données sources sera nécessaire pour évaluer la qualité et le pouvoir discriminant des variables de couplage, une exigence probable lorsqu'il s'agit du couplage de nouveaux ensembles de données.
Ce sous-processus peut nécessiter la consultation de divers groupes. Il serait ainsi nécessaire de consulter les administrateurs des ensembles de données sources, internes et externes à l’organisme statistique ou de couplage, afin de déterminer la disponibilité des données à coupler, d’établir une entente d’acquisition des données, le cas échéant, de déterminer la qualité des variables de couplage et des éventuelles limites relativement à l’utilisation des données. Des spécialistes en couplage d’enregistrements devraient également être consultés quant aux questions techniques afin de déterminer la faisabilité du couplage. Il conviendrait, en outre, de consulter des spécialistes du domaine (c.-à-d. des analystes) pour déterminer la pertinence de l’ensemble de données couplées dans le cadre d’analyses et de recherches. Enfin, il faudrait consulter les agents responsables d’assurer la conformité aux lois, politiques et directives applicables, afin de veiller à ce que le projet de couplage respecte les ententes et politiques établies. Dans le cas d’un couplage vers des données d’enquête, des avis destinés aux répondants relativement au couplage des données devraient être mis en place.
1.5 Détermination du parrain et de l’administrateur
Ce sous-processus consiste à déterminer les agents intervenant dans le projet de couplage d’enregistrements, c’est-à-dire le parrain et l’administrateur de l’ensemble de données couplées. Le parrain du projet veillera au bon déroulement du projet de couplage d’enregistrements et assumera l’exécution des tâches ainsi que les responsabilités connexes, notamment les relations avec le client, la gestion du projet, l’obtention des approbations et les communications avec les groupes pertinents (p. ex. méthodologie, domaine spécialisé) au nom de l’intervenant ou du client. L’administrateur de données assumera la responsabilité du ou des ensemble(s) de données couplées produit(s) une fois le projet de couplage d’enregistrements terminé, notamment l’entreposage, la gestion de l’accès, les réponses aux questions relatives au fichier, la documentation et finalement la destruction de l’ensemble de données conformément aux politiques et directives existantes.
Produit : Décision d’entreprendre le projet de couplage d’enregistrements
2. Conception
Cette étape porte sur l’élaboration d’une stratégie de conception pour toutes les composantes du projet de couplage d’enregistrements, notamment la stratégie de couplage, l’évaluation de la qualité et les exigences en matière d’accès. À cette étape, un budget préliminaire pour le projet est établi.
Cette étape peut exiger de consulter des spécialistes en couplage d’enregistrements ou du domaine, afin de veiller à ce que la conception respecte les normes de qualité et les besoins analytiques.

Description de la figure 2
2.1 Conception de la stratégie de couplage
2.2 Conception de la stratégie d’évaluation de la qualité
2.3 Planification des ajustements d’amélioration de la qualité
2.4 Détermination des besoins d’accès aux données
2.5 Estimation des coûts
2.1 Conception de la stratégie de couplage
Ce sous-processus consiste à concevoir la stratégie de couplage d’enregistrements. Une fois les ensembles de données sources déterminés, les variables sont classées comme identificateurs pour le couplage ou variables de contenu en vue de l’analyse, afin de déterminer l’accès aux variables selon le besoin et l’utilité. En fonction de la disponibilité des variables de couplage, la méthode de couplage d’enregistrements la plus appropriée (p. ex. déterministe, hiérarchique déterministe, probabiliste ou préservant la confidentialité) est également déterminée. Les points à prendre en compte incluent les objectifs du projet, l’usage final des données couplées et les ressources disponibles pour le projet de couplage d’enregistrements.
Ce processus devrait comprendre un examen des méthodes et processus utilisés dans des projets antérieurs de couplage d’enregistrements utilisant des ensembles de données sources similaires, afin de déterminer la pertinence des clés ou des stratégies de couplage existantes. Dans le cas de couplages d’enregistrements récurrents, comme un remplacement de données dans des enquêtes en cours, il convient d’utiliser les renseignements provenant de couplages précédents, afin de maintenir la cohérence au fil du temps.
2.2 Conception de la stratégie d’évaluation de la qualité
Ce sous-processus consiste à concevoir la stratégie d’évaluation de la qualité afin de veiller à ce que l’ensemble de données couplées soit adapté à l’utilisation prévue. La stratégie d’évaluation de la qualité est axée sur l’ensemble de données couplées et suppose que la qualité des ensembles de données sources a déjà été jugée acceptable. On tient également compte de mesures de la validité interne et externe.
Les mesures de la validité interne portent sur l’exactitude du processus de couplage d’enregistrements, sur la détection d’éventuelles sources d’erreur (p. ex. taux de paires faussement positives et faussement négatives) et sur les biais. Il est aussi possible d’étudier les risques et conséquences de l’équilibration des deux types d’erreurs et de déterminer des seuils appropriés.
Les mesures de la validité externe portent sur la confrontation des données, en comparant les principaux résultats générés à partir de l’ensemble de données couplées à des ensembles de données externes (p. ex. taux de mortalité ou taux d’emploi). La stratégie d’évaluation de la qualité devrait prendre en compte la disponibilité des sources d’information et des ressources externes pour le projet.
2.3 Planification des ajustements d’amélioration de la qualité
Ce sous-processus consiste à planifier des ajustements visant à améliorer la qualité globale de l’ensemble de données couplées. Il peut s’agir, par exemple, d’ajustements permettant de tenir compte d’erreurs dans les fichiers sources ou d’éventuels biais qu’a introduits la stratégie de couplage ou l’erreur de couplage générée. D’autres ajustements d’amélioration de la qualité peuvent comprendre une imputation afin de corriger des renseignements manquants découlant de paires manquantes.
Il importe de prendre en compte les exigences en matière de ressources nécessaires pour apporter les ajustements d’amélioration de la qualité et de les comparer au degré de précision souhaité selon l’utilisation prévue des données couplées. La décision finale du besoin d’ajustements d’amélioration de la qualité sera prise après l’exécution du couplage d’enregistrements et l’évaluation de la qualité.
2.4 Détermination des besoins d’accès aux données
Ce sous-processus consiste à évaluer le besoin d’accès à l’ensemble de données couplées et à envisager le processus et les exigences relativement aux divers scénarios de divulgation. L’accès à l’ensemble de données couplées peut être restreint à l’intervenant ou au client demandant le couplage d’enregistrements ou aux personnes internes à l’organisme, dans le cas d’une utilisation à des fins opérationnelles uniquement (p. ex. des registres). Il est aussi possible de déterminer que l’utilisation future de l’ensemble de données couplées exigera un accès plus large à l’ensemble de données couplées. Il convient également de prendre en compte les exigences en matière de documentation et de métadonnées ainsi que l’élaboration éventuelle de protocoles de divulgation. D’autres exigences en matière de ressources découlant du plan de divulgation devraient également être prises en note et planifiées.
2.5 Estimation des coûts
Ce sous-processus consiste à estimer plus précisément les coûts du projet en fonction des décisions de conception prises jusqu’alors. Les estimations des coûts doivent refléter l’éventail complet des activités, notamment le prétraitement des ensembles de données sources, le couplage d’enregistrements, l’évaluation de la qualité, la création de l’ensemble de données couplées, la documentation et les frais généraux.
Produit : Plan et budget du projet
3. Approbation
Cette étape porte sur l’obtention de l’autorisation d’entreprendre le projet de couplage d’enregistrements conformément aux politiques établies et aux cadres juridiques régissant les activités de couplage d’enregistrements au sein de l’organisme statistique. Le couplage d’enregistrements ne doit pas avoir lieu sans approbation préalable.
Les sous-processus de cette étape sont les suivants :

Description de la figure 3
3.1 Consultation et confirmation du processus d’approbation
3.2 Préparation des documents aux fins d’approbation
3.3 Soumission pour approbation
3.4 Archivage des demandes d’approbation
3.1 Consultation et confirmation du processus d’approbation
Ce sous-processus commence par la consultation des instances dirigeantes pertinentes responsables de l’approbation des propositions de couplage d’enregistrements. Ce sous-processus consiste également à consulter les administrateurs de données concernés, afin de fournir des détails sur le projet proposé de couplage d’enregistrements et d’obtenir un soutien pour le projet. Il s’agit également de l’occasion pour les administrateurs de données de soulever tout problème ou défi relatif à l’utilisation de leurs données dans le cadre du projet proposé.
3.2 Préparation des documents aux fins d’approbation
Dans le cadre de ce sous-processus, le parrain du projet prépare les documents afin d’obtenir l’approbation du projet de couplage d’enregistrements. La demande d’autorisation du couplage des ensembles de données doit fournir les renseignements suivants : les objectifs du projet de couplage, l’utilité publique du couplage d’enregistrements, la justification de l’atteinte à la vie privée inhérente au couplage d’enregistrements, l’énumération des ensembles de données sources, la structure de l’ensemble de données couplées final, les dispositions assurant le respect de la vie privée et la confidentialité des données, l’accès aux données et les dates de destruction de l’ensemble de données couplées.
3.3 Soumission pour approbation
Ce sous-processus consiste à soumettre officiellement la demande d’approbation du projet de couplage d’enregistrements aux instances dirigeantes.
3.4 Archivage des demandes d’approbation
Une fois approuvées, les demandes d’approbation de couplage d’enregistrements sont archivées. Les dates de destruction de l’ensemble de données couplées sont prises en note.
Produit : Approbation du projet de couplage d’enregistrements
Couplage d’enregistrements
La deuxième métaphase du processus de couplage d’enregistrements porte sur la mise en œuvre de la stratégie de couplage d’enregistrements au cours des trois étapes suivantes : la préparation des données, le couplage des données et l’évaluation de la qualité. Cette étape se termine par la création d’un ensemble de clés de couplage et la production d’un rapport sur le couplage d’enregistrements qui consigne les décisions prises et les activités ayant lieu au cours de ces étapes.
4. Préparation des données
L’étape portant sur la préparation des données consiste à préparer les variables de couplage provenant des ensembles de données sources. Cette étape commence par la création du sous-ensemble de variables de couplage au sein des ensembles de données sources, à titre de pratique exemplaire en matière de protection de la vie privée. Il est nécessaire de traiter et d’analyser les variables de couplage pour déterminer le degré d’exactitude et d’exhaustivité ainsi que pour accroître leur comparabilité et, finalement, pour veiller à ce qu’elles soient de qualité suffisamment élevée pour contribuer utilement au couplage d’enregistrements. La disponibilité et la qualité des variables de couplage détermineront les détails de la stratégie de couplage d’enregistrements.
Cette étape comprend les sous-processus suivants :

Description de la figure 4
4.1 Normalisation des variables de couplage
4.2 Évaluation des variables de couplage
4.3 Détermination des enregistrements visés par le couplage
4.4 Évaluation des résultats de la préparation de données
4.5 Commencement du rapport sur le couplage d’enregistrements
4.1 Normalisation des variables de couplage
Ce sous-processus vise à définir les sous-ensembles de données sources, afin de créer les ensembles de données source index contenant uniquement les variables de couplage. Cette définition de sous-ensemble de variables atténue l’atteinte à la vie privée du processus puisque seuls les spécialistes en couplage d’enregistrements ont besoin d’accéder aux variables de couplage à cette étape. Les variables couramment utilisées pour le couplage d’enregistrements comprennent les noms, les variables démographiques (p. ex. le sexe ou la date de naissance), les variables géographiques (p. ex. le code postal) et des identificateurs uniques (p. ex. le numéro d’assurance sociale, le numéro d’assurance-maladie ou le numéro d’entreprise). Les valeurs associées aux variables de couplage peuvent être combinées ou enchaînées afin de créer des clés de couplage.
Ce sous-processus comprend la normalisation de la structure, du format et des ensembles de codes des variables de couplage pour tous les ensembles de données sources, afin de garantir la comparabilité et la stabilité pour tous les fichiers.
Il convient de consulter les administrateurs des données afin d’obtenir les renseignements pertinents sur la collecte, le nettoyage et l’uniformisation des variables de couplage ainsi que de détecter tout éventuel problème ou défi pouvant avoir une incidence sur le processus de couplage d’enregistrements.
4.2 Évaluation des variables de couplage
Ce sous-processus permet d’évaluer la qualité et le pouvoir discriminant des variables de couplage devant avoir des répercussions à la fois sur la qualité du couplage et sur l’utilisation des données couplées.
Comme pour toute variable, les variables de couplage peuvent comprendre des erreurs, qu’elles proviennent de données d’enquête ou de données administratives. L’exactitude, la fiabilité et l’exhaustivité des variables de couplage doivent être évaluées (p. ex. taux de valeurs manquantes, incorrectes ou non valides).
Les méthodes permettant d’évaluer le pouvoir discriminant d’une variable de couplage peuvent varier en fonction du type de variable. Dans le cas d’identificateurs uniques (p. ex. numéro d’assurance sociale, numéro d’entreprise ou adresse), le processus peut consister à confirmer que l’identificateur est associé à une seule personne ou entreprise et est constant au fil du temps. Pour les identificateurs non uniques (p. ex. nom ou date de naissance), le processus peut inclure d’utiliser des approches statistiques afin de mesurer le pouvoir discriminant (p. ex. entropie de Shannon).
Il est nécessaire de consulter les administrateurs de données pour obtenir les renseignements pertinents concernant la qualité des variables de couplage. Le résultat de ce sous-processus permettra de déterminer les caractéristiques précises de la stratégie de couplage (p. ex. règles de couplage et poids dans le cas d’un couplage probabiliste).
4.3 Détermination des enregistrements visés par le couplage
Ce sous-processus porte sur l’établissement de critères d’inclusion et d’exclusion, afin de cerner les enregistrements des ensembles de données source index admissibles au couplage d’enregistrements. L’évaluation des variables de couplage peut contribuer à ce processus : des enregistrements contenant, par exemple, des valeurs incomplètes ou manquantes peuvent ne pas être jugés admissibles au couplage. Cette détermination peut en revanche dépendre des exigences du projet de couplage d’enregistrements ou des renseignements sur les répondants. Le résultat de ce sous-processus est le dénombrement final des enregistrements admissibles et non admissibles au couplage pour chaque ensemble de données sources.
4.4 Évaluation des résultats de la préparation de données
Au cours de ce sous-processus, les résultats de la préparation des données sont évalués afin de déterminer si l’on est prêt à commencer le projet de couplage d’enregistrements. Les résultats de l’évaluation peuvent imposer de raffiner ou de modifier la stratégie de couplage ainsi que contribuer au processus d’évaluation de la qualité (c.-à-d. la détection d’une éventuelle source de biais) et fournir des renseignements sur l’utilisation de l’ensemble de données couplées.
4.5 Commencement du rapport sur le couplage d’enregistrements
Dans le cadre de ce sous-processus portant sur la production du rapport sur le couplage d’enregistrements, on documente d’abord l’étape de préparation des données. Les renseignements suivants doivent, en particulier, être fournis pour tous les projets de couplage d’enregistrements : une brève description des ensembles de données sources et les résultats de l’évaluation des variables de couplage et des critères d’admissibilité accompagnés des dénombrements d’enregistrements finaux. Les dénombrements d’enregistrements admissibles et non admissibles au couplage serviront à calculer les taux de couplage ultérieurement au cours du processus, fourniront la preuve d’un éventuel biais et contribueront à définir des stratégies d’ajustement d’amélioration de la qualité (p. ex. pondération), le cas échéant.
Les résultats de l’étape de préparation des données doivent être conservés et accessibles pour tout autre projet de couplage d’enregistrements à venir portant sur les mêmes ensembles de données sources. Ces renseignements peuvent aussi être partagés avec l’administrateur de données en vue d’une amélioration de la qualité globale des données sources.
Produit : Ensemble de données prêtes au couplage
5. Couplage des données
Cette étape comprend le couplage des ensembles de données source index. Il existe plusieurs méthodes de couplage d’enregistrements, telles que déterministe, hiérarchique déterministe, probabiliste et préservant la confidentialité, pour n’en nommer que quelques-unes. En général, la méthode probabiliste fait intervenir un plus grand nombre de techniques que la méthode déterministe. La section suivante décrit les sous-processus généraux s’appliquant à tous les couplages d’enregistrements, quelle que soit la méthodologie particulière employée.
Ces sous-processus se déroulent généralement en ordre séquentiel, mais peuvent également être itératifs, puisque le couplage est évalué à chaque étape et qu’un perfectionnement des processus précédents peut être nécessaire. Toutes les méthodes de couplage sont constituées des cinq composantes suivantes :

Description de la figure 5
5.1 Détermination des paires potentielles
5.2 Comparaison des champs et des enregistrements
5.3 Règles de couplage
5.4 Mise au point de la stratégie de couplage d’enregistrements
5.5 Documentation de la stratégie de couplage d’enregistrements
5.1 Détermination des paires potentielles
Le processus de couplage d’enregistrements commence par la détermination d’un ensemble de paires envisagées comme paires potentielles pour le couplage. Il est possible d’utiliser un produit croisé des fichiers sources pour générer un ensemble complet de toutes les paires potentielles. Cependant, les ensembles de données sources étant souvent volumineux dans le cas de données administratives, il peut ne pas s’avérer pratique d’évaluer toutes les paires d’enregistrements possibles. On peut alors avoir recours au processus d’indexage ou de blocage pour réduire le nombre de paires possibles que génère le produit croisé des tableaux étant couplés et ainsi obtenir un plus petit sous-ensemble de paires à analyser en fonction du temps et des ressources disponibles. Ce sous-ensemble serait constitué de paires correspondant parfaitement à une clé donnée ou à un critère particulier et représentant les paires potentiellement jumelées, que l’on appelle également paires potentielles. L’indexation réduit les ressources statistiques requises. Toutefois, elle peut éventuellement accroître le taux de paires manquantes.
Un couplage probabiliste fait référence à un blocage plutôt qu’à une indexation; cela consiste à utiliser des critères de blocage pour réduire le nombre de paires à envisager pour le couplage. Plusieurs critères de blocage sont souvent utilisés pour limiter le nombre de paires manquantes. Dans le cadre d’un couplage hiérarchique déterministe, l’indexation est implicite et utilisée lors de la fusion d’importants ensembles de données.
5.2 Comparaison des champs et des enregistrements
Pour chaque paire, les attributs des enregistrements couplés sont comparés. Cela consiste généralement à comparer les chaînes (p. ex. des noms) ou des combinaisons numériques (p. ex. des dates de naissance).
La comparaison d’attributs se fonde sur des fonctions de comparaison ou des règles de couplage. Dans un couplage probabiliste, des fonctions élaborées sont utilisées pour comparer simultanément de multiples attributs à de multiples niveaux et générer des produits plus complexes (p. ex. comparaisons matricielles). Les fonctions de comparaison diffèrent en outre selon la manière dont elles traitent les valeurs manquantes.
Dans le cas d’un couplage déterministe ou hiérarchique déterministe, les fonctions de comparaison sont intégrées aux conditions logiques qui repèrent les paires jumelées. En ce qui concerne le couplage déterministe, seules les correspondances exactes pour une fonction unique sont acceptées comme paires.
5.3 Règles de couplage
Les résultats de la comparaison servent à prendre une décision en matière de couplage et à déterminer si la paire correspond ou ne correspond pas, ou encore si elle correspond potentiellement et doit faire l’objet d’un examen manuel supplémentaire.
Dans le cadre d’un couplage déterministe ou hiérarchique déterministe, cette décision se fonde sur une séquence de conditions logiques découlant d’une démarche axée sur des règles. Ces conditions logiques sont élaborées de manière itérative à l’aide d’examens manuels sur des échantillons de paires.
Dans le cadre d’un couplage probabiliste, un poids est attribué pour refléter la similarité de chaque variable de couplage dans une paire d’enregistrements; des poids supérieurs étant attribués en cas de degré de correspondance supérieur pour des variables ayant un pouvoir discriminant supérieur. Un poids de couplage total est ensuite calculé pour chaque paire. Le poids total est alors comparé à deux seuils afin de décider si la paire correspond ou non. Les paires présentant un poids se situant entre les deux seuils sont résolues manuellement. Aucune résolution manuelle n’a lieu lorsque les deux seuils sont identiques. Les seuils sont définis en théorie selon les taux ciblés d’erreurs de couplage, notamment le taux de fausses correspondances et le taux de correspondances manquantes. Les paramètres de couplage comprennent les poids de couplage et les seuils. Ils doivent être estimés à partir de l’ensemble de paires potentielles. Cette estimation peut se fonder sur des examens manuels ou sur un modèle statistique. Les modèles statistiques les plus courants intègrent des suppositions.
5.4 Mise au point de la stratégie de couplage d’enregistrements
Ce sous-processus reconnaît que le couplage d’enregistrements peut être un processus itératif. L’évaluation de la stratégie initiale de couplage d’enregistrements peut entraîner des ajustements avant d’obtenir la stratégie optimale. L’évaluation peut comprendre un examen par le commis des paires jumelées sélectionnées, des enregistrements non jumelés ainsi que du taux de couplage global. Dans le cadre d’un couplage probabiliste, par exemple, cette étape peut également comprendre de reporter la répartition des poids de couplage dans un histogramme; si la stratégie de couplage fonctionne bien, ce report devrait révéler une répartition bimodale reflétant des résultats de correspondances et de non-correspondances. La stratégie de couplage peut encore une fois être perfectionnée à la suite du processus de validation décrit à l’étape 6.
5.5 Documentation de la stratégie de couplage d’enregistrements
Ce sous-processus permet de consigner dans le rapport sur le couplage d’enregistrements les méthodes utilisées et les décisions prises au cours du processus de couplage d’enregistrements. L’objectif est de conserver des renseignements suffisamment détaillés pour faciliter la reproduction de la stratégie de couplage. Pour un couplage déterministe, il est nécessaire de conserver des renseignements sur les conditions logiques utilisées pour déterminer les paires jumelées ainsi que tout examen manuel effectué lors de l’élaboration des règles. Pour un couplage probabiliste, il convient de consigner ce qui suit : les critères de blocage et toute modification ultérieure des paires potentielles après la création initiale; les fonctions de comparaison, notamment le traitement des valeurs manquantes; l’estimation des paramètres de couplage, y compris l’utilisation de tout modèle statistique ou examen manuel.
Produit : Clés de couplage préliminaires
6. Évaluation de la qualité
La troisième étape du processus de couplage d’enregistrements porte sur l’évaluation de la qualité du couplage (validation interne) et de la « convenance à l'emploi » de l’ensemble de données couplées (validation externe). Le but de cette étape est de veiller à ce que l’ensemble de données couplées présente un niveau de qualité adéquat pour l’utilisation prévue. L’évaluation de la qualité devrait se dérouler conformément au plan élaboré au cours du sous-processus 2.2. Toute limite des données couplées relevée au cours de ce sous-processus devrait contribuer à la décision relative à l’utilisation de ces données couplées.
L’étape de l’évaluation de la qualité est constituée des composantes suivantes :

Description de la figure 6
6.1 Validation interne
6.2 Validation externe
6.3 Ajustement de la stratégie de couplage d’enregistrements
6.4 Production des clés de couplage
6.5 Mise au point du rapport sur le couplage d’enregistrements
6.1 Validation interne
Ce sous-processus porte sur une validation interne visant à évaluer la qualité de la stratégie de couplage. À cette étape, la validation se limite généralement à l’utilisation de variables de couplage. Ce processus peut commencer par l’évaluation de la validité apparente des résultats du couplage, notamment en : comparant les taux de couplage globaux à des niveaux attendus découlant de l’expérience acquise au cours de précédents projets de couplage ou à des sources externes; analysant les taux de couplage pour les sous-groupes ou populations, afin de déceler d’éventuels biais ou de confirmer les tendances prévues, selon lesquelles on ne s’attend pas à un couplage de tous les enregistrements (p. ex. couplage aux enregistrements de mortalité). Une analyse des enregistrements non couplés peut également avoir lieu à cette étape. Il peut être nécessaire de consulter les spécialistes du domaine à cette étape.
Ce sous-processus devrait également comprendre une évaluation plus rigoureuse de l’exactitude de la stratégie de couplage pour confirmer les « bons » liens et estimer le taux de « mauvais » liens ou d’erreurs. Des approches après le couplage, comme une évaluation par un commis, une comparaison à une norme de référence ou une simulation, peuvent permettre de générer des estimations d’erreurs pour l’ensemble de données couplées, comme les taux de liens faux positifs et faux négatifs, la spécificité et la sensibilité.
6.2 Validation externe
Ce sous-processus est la première étape de l’évaluation de l’« adéquation à l’utilisation » de l’ensemble de données couplées et doit avoir lieu une fois qu’il a été démontré que le couplage était d’une qualité acceptable (voir le sous-processus 6.1). Les méthodes employées à cette étape devraient correspondre à l’utilisation prévue de l’ensemble de données couplées. Dans le cas, par exemple, de données couplées élaborées pour étayer une analyse et des recherches, des variables supplémentaires provenant des ensembles de données sources peuvent être requises, afin d’évaluer les taux de couplage pour des sous-populations clés. Une validation externe peut inclure une confrontation des données dans le cadre de laquelle des produits statistiques générés à l’aide d’un ensemble de données couplées sont comparés à des ensembles de données externes. Ce processus devrait intégrer une participation des spécialistes du domaine, le cas échéant. La validation externe peut également avoir lieu après l’intégration des données lorsque l’ensemble de données couplées final est créé et analysé (voir le sous-processus 7.5).
6.3 Ajustement de la stratégie de couplage d’enregistrements
Ce sous-processus vise à perfectionner, au besoin, la stratégie de couplage d’enregistrements en fonction des résultats de la validation interne et externe. Cela peut consister à perfectionner les règles de couplage ou les seuils utilisés pour déterminer si les paires correspondent ou non. S’il est nécessaire d’apporter des ajustements, les sous-processus 6.1 et 6.2 doivent être répétés pour évaluer la nouvelle stratégie de couplage. D’autres ajustements peuvent être requis après la dernière étape de validation, lorsque l’ensemble de données couplées final est créé et utilisé pour l’analyse (voir le sous-processus 7.5).
6.4 Production des clés de couplage
Ce sous-processus est le produit final du processus de couplage d’enregistrements au cours duquel les clés de couplage sont créées et enregistrées dans un fichier de clés de couplage. Ce fichier est un fichier anonymisé qui contient uniquement les identificateurs uniques nécessaires à l’identification des enregistrements liés à une même entité dans les ensembles des données sources, mais ne contient pas d’information permettant l’identification ayant pu être utilisée pour créer les paires. L’accès au fichier de clés de couplage est restreint aux personnes ayant l’autorisation de créer des ensembles de données couplées.
6.5 Mise au point du rapport sur le couplage d’enregistrements
Ce sous-processus consiste à consigner les résultats de la validation interne et externe, afin de terminer la rédaction du rapport sur le couplage d’enregistrements. Il convient de prendre note de toute limite des données pouvant avoir une incidence sur leur utilisation. Le rapport sur le couplage d’enregistrements devrait être rédigé dans un format permettant aux utilisateurs des données couplées de comprendre les notions de base de la stratégie de couplage ainsi que les résultats de l’évaluation de la qualité. Il devrait également présenter un degré de détails permettant de reproduire le projet de couplage d’enregistrements en suivant la même méthodologie.
Produit : Clés de couplage finales et rapport sur le couplage d’enregistrements
Activités après le couplage
Dans la métaphase finale, les activités portent sur l’utilisation des résultats du couplage d’enregistrements (c.-à-d. les clés de couplage) pour intégrer les ensembles de données sources et créer un ensemble de données couplées. On précise alors les protocoles régissant l’accès et l’utilisation des données couplées. Enfin, une évaluation du projet de couplage d’enregistrements est menée.
7. Intégration et analyses
Cette étape porte sur l’utilisation des clés de couplage pour intégrer les données des ensembles de données sources, afin de produire un ensemble de données couplées prêt à l’utilisation. Cette utilisation des données peut consister en une validation plus approfondie, la création de produits statistiques ou des activités opérationnelles.
Cette étape comprend les sous-processus suivants :

Description for Figure 7
7.1 Intégration des données, examen et validation
7.2 Application des ajustements d’amélioration de la qualité
7.3 Calcul de nouvelles variables
7.4 Mise au point et documentation de l'ensemble de données couplées
7.5 Analyse, validation et rétroaction
7.1 Intégration des données, examen et validation
Ce sous-processus porte sur l’intégration, à un ensemble de données couplées, de données provenant d’ensembles de données sources à l’aide de clés de couplage et des résultats. Cette intégration comprend généralement le couplage systématique, l’utilisation de clés de couplage pour créer un ensemble de données couplées et le rapprochement des variables lorsque deux ensembles de données sources ou plus contiennent les mêmes variables. L’ensemble de données couplées créé aux fins d’analyse ou pour le remplacement de données d’une enquête ne doit pas contenir d’identificateurs personnels. Les ensembles de données couplées à usage interne, comme pour l’établissement de bases de sondage, peuvent conserver des renseignements permettant l’identification.
Pour examiner le processus de fusion, il convient d’effectuer des vérifications de la fréquence ou des enregistrements sur chaque ensemble de données sources avant le processus de fusion, puis à nouveau après la fusion. On compare ensuite le nombre d’enregistrements afin de déceler tout écart.
Une validation plus poussée de l’ensemble de données couplées peut comprendre une évaluation plus complète visant à détecter d’éventuelles erreurs et d’éventuels écarts, comme des enregistrements en double, des valeurs aberrantes, la non-réponse partielle et des erreurs de codage. Cette tâche peut être effectuée de façon itérative, en validant les données au moyen de règles de vérification prédéfinies, habituellement selon un ordre déterminé. Des modifications automatiques peuvent être appliquées ou des avertissements peuvent être envoyés aux fins d’inspection manuelle et de correction des données. L’examen, la validation et la modification peuvent porter sur des enregistrements provenant d’enquêtes ou de sources administratives, avant et après l’intégration. Ce processus est particulièrement important lorsque l’un ou plusieurs des ensembles de données sources sont nouveaux pour l’organisme statistique ou de couplage, et en l’absence de preuves de la qualité des données.
7.2 Application des ajustements d’amélioration de la qualité
Dans le cadre de ce sous-processus, on apporte à l’ensemble de données couplées les ajustements d’amélioration de la qualité après le couplage. Les ajustements devraient être appliqués selon le plan élaboré au cours du sous-processus 2.2. D’autres ajustements d’amélioration de la qualité peuvent également être requis du fait de l’évaluation de la qualité menée dans le cadre du sous-processus 2.6.
Les ajustements d’amélioration de la qualité peuvent inclure, par exemple, des poids afin de corriger un éventuel biais introduit par des erreurs de couplage ou pour tenir compte de poids déterminés par le plan d’échantillonnage lors du couplage d’un ensemble de données d’enquête. Il peut s’agir d’un ajustement des poids de sondage dans le cas de données d’enquête utilisées dans le processus de couplage ou de la création de nouveaux poids pour des données administratives.
D’autres ajustements d’amélioration de la qualité peuvent comprendre une imputation afin de corriger des renseignements manquants découlant de paires manquantes. Cela peut être nécessaire lorsque le couplage d’enregistrements vise un remplacement de données d’enquêtes en cours.
7.3 Calcul de nouvelles variables
Ce sous-processus consiste à calculer de nouvelles variables n’étant pas explicitement fournies dans les ensembles de données sources d’origine, mais qui sont nécessaires pour créer les produits statistiques souhaités. Cela permet de dériver de nouvelles variables en appliquant des formules arithmétiques ou d’autres hypothèses de modèle à l’une ou à plusieurs des variables déjà présentes dans l’ensemble de données. Il sera peut-être nécessaire de procéder de manière itérative, puisque certaines variables dérivées peuvent elles-mêmes être fondées sur d’autres variables dérivées. Il importe donc de veiller à ce que les variables soient dérivées dans le bon ordre. De nouvelles variables peuvent être dérivées en regroupant ou en fractionnant des données provenant d’enregistrements couplés. Des variables dérivées dans le contexte d’ensembles de données couplées peuvent faire intervenir des renseignements provenant de plusieurs fichiers d’entrée.
7.4 Mise au point et documentation de l'ensemble de données couplées
Ce sous-processus comprend la mise au point et documentation de l'ensemble de données couplées en indiquant les métadonnées et les renseignements requis, afin d’informer les utilisateurs quant à l’utilisation de l’ensemble de données couplées. Le niveau de documentation devrait correspondre à l’utilisation prévue de l’ensemble de données couplées. Cette documentation peut être une compilation des documents liés aux ensembles de données sources, au processus de couplage d’enregistrements, aux résultats de l’évaluation de la qualité, mais également comprendre un cliché d’enregistrement du nouvel ensemble de données couplées, au besoin.
Si ces documents existent (p. ex. guides de l’utilisateur, dictionnaire de données ou cliché d’enregistrement) et présentent le niveau de qualité souhaité pour l’utilisation prévue de l’ensemble de données couplées, ils peuvent être mentionnés dans la documentation de l’ensemble de données couplées. En revanche, si la documentation sur l’ensemble de données sources n’est pas disponible ou est incomplète pour les fins souhaitées, il peut être requis de créer des documents plus complets pour l’ensemble de données couplées. Les nouvelles variables ou les variables modifiées (p. ex. poids ou variables dérivées) découlant des sous-processus 7.2 et 7.3 doivent être entièrement consignées.
7.5 Analyse, validation et rétroaction
Dans le cadre de ce sous-processus, la première analyse de l’ensemble de données couplées est menée. Avant d’analyser les données, les utilisateurs devraient se familiariser avec tous les documents liés à l’ensemble de données couplées, notamment les dictionnaires de données des ensembles de données sources et le rapport sur le couplage d’enregistrements, afin de prendre conscience de toute limite associée aux ensembles de données sources d’origine ou provenant du processus de couplage d’enregistrements.
L’analyse de l’ensemble de données couplées permet de veiller à ce que les données puissent être utilisées de manière fiable, afin de créer le produit statistique visé (p. ex. nouveaux indicateurs, résultats de recherche ou nouvelle base de sondage). Cette analyse s’effectue souvent dans le contexte des objectifs initiaux énumérés à la première métaphase. Dans le cas de données couplées créées pour étayer une recherche, cela peut comprendre, par exemple, une évaluation supplémentaire des taux de couplage au sein de la cohorte étudiée (p. ex. sous-populations ou entreprises propres à une industrie). Il s’agit en outre de la première occasion de vérifier les associations ou les rapports de causalité entre les variables provenant de divers ensembles de données sources, afin de déterminer si elles expriment la direction attendue. Dans le cas d’un couplage d’enregistrements visant à créer un nouveau registre ou une nouvelle base de sondage, l’analyse peut comprendre, par exemple, des estimations de la couverture.
Il conviendrait de comparer les résultats de l’analyse ou de la recherche dérivée de l’ensemble de données couplées à des sources externes aux fins de validation supplémentaire. Des analystes vérifient la qualité des produits statistiques générés à partir de l’ensemble de données couplées conformément à un cadre général de qualité et aux attentes. Ce sous-processus comprend également des activités visant à recueillir des renseignements dans le but cumulatif de créer une somme de connaissances au sujet d’un domaine statistique particulier. Ces connaissances sont ensuite appliquées à l’ensemble de données couplées, dans l’environnement actuel, pour repérer toute divergence par rapport aux attentes et pour permettre des analyses éclairées.
Les activités de validation peuvent comprendre de confronter le produit statistique à d’autres données pertinentes (internes et externes), de confronter les statistiques aux attentes et connaissances du domaine ou d’étudier les incohérences présentes dans les statistiques.
Ce sous-processus est important, car il fournit des renseignements supplémentaires sur la convenance de l'emploi de l’ensemble de données couplées. Il faudrait mentionner toute divergence ou limite relevée quant à l’utilisation de l’ensemble de données couplées dans la documentation afin de guider les futurs utilisateurs. De graves erreurs ou limites décelées à cette étape peuvent exiger de plus amples ajustements de la stratégie de couplage d’enregistrements, de l’évaluation de la qualité ou des ajustements d’amélioration de la qualité nécessitant de répéter certains sous-processus des étapes 5, 6 et 7.
Produits : Ensemble de données couplées, documentation et produits analytiques
8. Accès et diffusion
Cette étape porte sur l’établissement des ententes couvrant l’accès et la diffusion de l’ensemble de données couplées, afin d’assurer le respect des cadres réglementaires et juridiques existants régissant les données et le processus de couplage d’enregistrements au sein de l’organisme statistique ou de couplage.
Cette étape comprend les activités suivantes :

Description de la figure 8
8.1 Établissement du processus d’accès
8.2 Établissement de protocoles de contrôle de la divulgation
8.3 Entreposage et gestion de l’accès
8.4 Destruction des ensembles de données couplées
8.1 Établissement du processus d’accès
Ce sous-processus permet d’établir le processus d’accès aux données couplées. Il commence par un examen des exigences d’accès relevées aux étapes de planification (voir le sous-processus 2.4) et révisées en fonction des besoins. L’accès peut être limité à l’intervenant ou au client dont les besoins en matière de données ont donné lieu au projet de couplage d’enregistrements. Il est cependant possible de prendre des dispositions pour autoriser d’autres utilisateurs ayant des besoins de données similaires à accéder à l’ensemble de données couplées. Il peut être nécessaire de réserver aux employés internes de l’organisme statistique l’utilisation d’ensembles de données couplées créés pour répondre à des besoins opérationnels (p. ex. bases de sondage ou registres).
Ce sous-processus devrait comprendre des consultations avec l’administrateur de l’ensemble de données couplées qui sera finalement responsable de fournir l’autorisation d’accéder aux données. Les processus établis pour accéder à l’ensemble de données couplées doivent respecter les cadres juridiques et politiques régissant les données sources ainsi que les données couplées. Il est également nécessaire de mettre en place un mécanisme permettant d’effectuer le suivi des utilisateurs des données.
8.2 Établissement de protocoles de contrôle de la divulgation
Dans le cadre de ce sous-processus, on établit des protocoles de divulgation des produits statistiques générés à partir des ensembles de données couplées afin d’assurer le respect de la confidentialité. Ils peuvent comprendre des exigences en matière de valeurs de cellule minimales ou de contributions proportionnelles maximales dans des produits sous forme de tableaux ou de modèles, de restrictions au niveau géographique ou de regroupement de variables catégoriques, ou encore de traitement de produits statistiques (p. ex. arrondissement aléatoire). Il s’agit ici d’exigences dans les cas où l’ensemble de données couplées est utilisé aux fins d’analyse et de création de produits statistiques.
8.3 Entreposage et gestion de l’accès
Ce sous-processus permet de conserver les clés de couplage de manière sécurisée. Dans les cas où les données couplées sont utilisées aux fins d’analyse, les identificateurs sont supprimés; si les données couplées sont utilisées à des fins opérationnelles, les identificateurs demeurent au sein des données couplées. Ce sous-processus comprend de gérer l’accès aux ensembles de données, notamment l’ensemble de données couplées en vue d’une utilisation dans d’autres projets à venir, conformément au processus défini dans le sous-processus 8.1.
8.4 Destruction des ensembles de données couplées
À la fin de la période de conservation approuvée, l’ensemble de données couplées est détruit ou une prolongation est demandée et approuvée avant la fin de la période de conservation.
Produit : Protocoles de divulgation et d’accès
9. Évaluation
Cette étape porte sur l’évaluation du projet de couplage d’enregistrements, et non sur l’évaluation du couplage de données effectuée à la deuxième métaphase. Cette évaluation peut inclure des aspects du processus de couplage d’enregistrements ainsi que du processus de gestion générale de projet. Au cours de cette étape, on relève également des aspects pertinents du projet de couplage d’enregistrements pouvant être utiles à d’éventuels projets.
Cette étape comprend des sous-processus généralement séquentiels, mais qui peuvent aussi en pratique se chevaucher dans une certaine mesure :

Description de la figure 9
9.1 Rassemblement de données d’entrée aux fins d’évaluation
9.2 Conduite de l’évaluation
9.3 Entente sur un plan d’action
9.4 Ajout à la « boîte à outils » du couplage d’enregistrements
9.1 Rassemblement des données d’entrée aux fins d’évaluation
Les données d’entrée à évaluer peuvent être produites durant toute autre étape ou tout autre sous-processus. Elles peuvent prendre diverses formes, y compris des commentaires des utilisateurs, des métadonnées (paradonnées) sur les processus, des mesures des systèmes et des suggestions du personnel. Les rapports de progression par rapport à un plan d’action convenu lors d’une itération précédente peuvent également servir d’apport aux évaluations d’itérations subséquentes. Ce sous-processus permet de rassembler toutes ces données d’entrée et les met à la disposition de la personne ou de l’équipe qui effectue l’évaluation.
9.2 Conduite de l’évaluation
Ce sous-processus permet d’analyser les données d’entrée aux fins d’évaluation et d’en faire la synthèse dans un rapport d’évaluation. Le rapport qui en résulte doit indiquer tout problème de qualité propre à cette itération du processus de production statistique et recommander des changements à apporter au besoin. Ces recommandations peuvent porter sur les changements à apporter à une étape ou à un sous-processus quelconque aux fins d’itérations futures du processus ou proposer que le processus ne soit pas répété.
9.3 Entente sur un plan d’action
Ce sous-processus permet de rassembler les pouvoirs décisionnaires nécessaires pour établir un plan d’action fondé sur le rapport d’évaluation et s’entendre sur ce plan. Il devrait également comprendre d’envisager l’adoption d’un mécanisme de surveillance des répercussions des mesures prévues dans le plan d’action, qui peuvent, à leur tour, servir d’apport aux évaluations d’itérations futures du processus.
9.4 Ajout à la « boîte à outils » du couplage d’enregistrements
Ce sous-processus consiste à relever des renseignements pertinents à inclure à la boîte à outils du couplage d’enregistrements. Cette boîte à outils est un dépôt de concepts, de pratiques exemplaires, d’outils et de matériel de formation relatifs au couplage d’enregistrements. Le but de cette boîte à outils est de faciliter le transfert des connaissances entre les personnes participant aux activités de couplages d’enregistrement actuels ou futurs, afin d’accroître l’efficacité et la qualité des couplages d’enregistrements de l’organisme.
Produit : Rapport d’évaluation et contribution à la boîte à outils du couplage d’enregistrements
Annexe A : Glossaire
- Administrateur de données
- Gestionnaire principal chargé de désigner un gestionnaire responsable d’un fichier d’analyse de couplage, de veiller à ce que le fichier soit géré conformément à la Directive sur la gestion des fichiers de microdonnées statistiques, la Directive sur le couplage d’enregistrements et toutes les lois, politiques et autres documents applicables faisant autorité, et de gérer l’accès au fichier.
- Appariement statistique
- L’appariement statistique (également appelé fusion de données ou appariement synthétique) est une approche fondée sur un modèle permettant de fournir des renseignements statistiques conjoints en fonction de variables et d’indicateurs recueillis à partir d’au moins deux sources.
- Clés de couplage
- Les identificateurs uniques des micro-enregistrements sources ayant été couplés et leur association.
- Couplage d’enregistrements
- Combinaison de deux micro-enregistrements ou plus en vue de former un enregistrement composite comprenant des renseignements au sujet de la même entité. Le produit d’un couplage d’enregistrements doit contenir des renseignements provenant de plus d’un fichier de données qui ont été des intrants dans l’activité de couplage d’enregistrements.
- Couplage d’enregistrements déterministe
- Correspondance exacte avec une clé ou un ensemble de variables appelé « clé de correspondance ». Une correspondance unique avec la clé de correspondance détermine qu’il y a correspondance.
- Couplage d’enregistrements hiérarchique déterministe
- Il est également appelé couplage d’enregistrements déterministe par étapes. Le couplage a lieu sous forme d’étapes séquentielles au cours desquelles une correspondance unique sur un sous-ensemble donné de variables ou clé de correspondance détermine une correspondance. Les enregistrements sans correspondance à la première étape deviennent admissibles à l’étape suivante. Les clés de correspondance les plus strictes sont utilisées au cours des premières étapes.
- Couplage d’enregistrements probabiliste
- Méthode qui compare simultanément des identificateurs non uniques et estime la probabilité que deux enregistrements correspondent, c.-à-d. qu’ils portent sur la même entité. Un vecteur de comparaison ou de correspondance pour une paire représente le niveau de correspondance (poids de couplage) entre les enregistrements; la paire est considérée comme une correspondance ou non si ce niveau de correspondance ou poids de couplage est supérieur ou inférieur aux seuils fixés.
- Ensemble de données couplées
- Fichier contenant les enregistrements composites provenant du couplage d’au moins deux ensembles de données sources.
- Ensembles de données sources
- Ensembles de données d’entrée couplées dans le cadre du processus de couplage d’enregistrements. Ces ensembles peuvent présenter deux types de structure : les fichiers sources index contiennent des identificateurs personnels sans variables d’analyse et l’ensemble de données sources contient des variables d’analyse sans identificateurs personnels.
- Entité
- Répondant individuel ou unité d’observation, comme une personne, une famille, un ménage, un logement, une ferme, une société, une entreprise, un établissement, une institution, etc.
- Identificateurs uniques
- Chaîne numérique ou alphanumérique associée à une entité unique (personne ou entreprise) au sein d’un programme ou système donné de prestation de services. Des exemples d’identificateurs uniques sont un numéro d’assurance sociale, un numéro d’assurance-maladie, un numéro d’étudiant, un numéro de permis de conduire, etc.
- Identificateurs directs
- Toute information qui pourrait permettre l’identification d’une personne, d’une entreprise ou d’un organisme, mais qui n’est pas utilisée dans l’analyse statistique. Des exemples d’identificateurs directs sont un nom et une adresse (rue et code postal).
- Micro-enregistrement
- Renseignements sur une entité identifiable.
- Parrain
- Gestionnaire principal chargé de désigner un gestionnaire responsable du projet de couplage d’enregistrements, de veiller à ce que le projet soit géré conformément aux politiques, directives et lignes directrices de gestion existantes.
- Variables de couplage
- Variables utilisées pour coupler les ensembles de données sources. Elles contiennent des identificateurs personnels utilisés dans le processus de couplage d’enregistrements. Elles peuvent inclure des identificateurs uniques (p. ex. numéro d’assurance sociale ou numéro d’assurance-maladie) ou d’autres identificateurs personnels, comme une date de naissance, un code postal ou le sexe.
- Date de modification :