Couplage des données de recensement et de données d'hôpital : deux approches

par Michelle Rotermann, Claudia Sanmartin, Gisèle Carrière, Richard Trudeau, Hélène St-Jean, Abdelnasser Saïdi, Alexander Reicker, Aimé Ntwari et Eric Hortop

Le couplage d’enregistrements, c’est-à-dire le processus d’appariement d’enregistrements — entre des ensembles de données différents ou à l’intérieur d’un seul —, est courant dans la recherche sur la santéNote 1-7. Il sert à créer un ensemble de données enrichies dont les applications sont plus largesNote 6-11. Les données qui s’y prêtent sont les données complémentaires, c’est-à-dire se trouvant dans une source de données sur deux.

Pour produire des résultats exacts, le couplage de données doit se baser sur un identificateur unique communNote 12,Note 13. Un identificateur doit s’appliquer à une seule personne, et une personne doit posséder un seul identificateurNote 14. Dans les couplages du domaine de la santé au Canada, on a eu recours à ce titre au numéro d’assurance-maladie provinciale (NAM)Note 2,Note 3,Note 11,Note 15. Ce numéro n’est toutefois pas employé dans la plupart des bases de données (p. ex., statistique de l’état civil, recensement et dossiers de l’impôt).

À défaut de certaines données, on peut recourir à une approche fondée sur un registre pour le couplage de données. Par exemple, les registres de l’assurance-maladie peuvent servir de fichiers de « rapprochement » pour le couplage, parce qu’on y retrouve les NAM, ainsi que les noms et d’autres variables d’identificationNote 2,Note 3,Note 11,Note 15. Mais ces registres ne sont pas toujours accessibles. On peut également adopter une approche non fondée sur un registre, laquelle repose sur l’appariement d’enregistrements provenant de bases de données différentes, à partir de combinaisons de données personnelles co-occurrentes, comme la date de naissance et le code postalNote 13,Note 14,Note 16,Note 17.

Lorsque les bases de données ont trait à la même population, on s’attend généralement à ce que la plupart des enregistrements puissent être couplés. Toutefois, lorsqu’on prévoit qu’une fraction seulement des enregistrements seront couplés, la prédétermination d’un taux de couplage raisonnable pose un problème. Cela est typique dans les couplages axés sur la santé — par exemple, un petit nombre de personnes seront hospitalisées ou décéderont pendant le suivi. Dans de tels cas, les couplages ont été évalués en comparant les résultats d’approches différentes à partir des mêmes jeux de donnéesNote 12,Note 14,Note 18-20; en comparant les taux et les répartitions en pourcentage à l’égard de variables pour lesquelles existent des données couplées et non coupléesNote 14,Note 21,Note 22; et en calculant la sensibilité et la spécificitéNote 19,Note 23,Note 24. Selon des études canadiennes, pour des enregistrements qui, selon toute vraisemblance, seront couplés, un taux d’appariement d’environ 75 % est considéré acceptable pour la rechercheNote 5,Note 25,Note 26.

La présente étude compare deux approches (l’une fondée sur un registre et l’autre non) pour le couplage de données du Recensement de la population de 2006 et de données d’hôpital tirées de la Base de données sur les congés des patients (BDCP) pour le Manitoba et l’Ontario, deux provinces pour lesquelles Statistique Canada a accès aux données des registres de l’assurance-maladie (NAM). Elle a pour but de déterminer s’il est possible de produire un ensemble de données dont le niveau de qualité est assez élevé pour la recherche, sans se servir de données de « rapprochement » comme celles provenant des registres provinciaux de l’assurance-maladie. Le couplage a été approuvé par le Comité des politiquesNote 27 et régi par la Politique sur le couplage d’enregistrements de Statistique CanadaNote 28.

Données et méthodes

Sources des données

Recensement de la population de 2006
Les données du Recensement de 2006 ont été recueillies à l’aide d’un questionnaire abrégé (court) et d’un questionnaire détaillé (long). La population au complet a répondu aux sept questions de base que comprenait le questionnaire abrégé, portant sur des caractéristiques démographiques comme la date de naissance, le sexe et le code postal de chaque membre du ménageNote 29. Environ 20 % des ménages privés ont en outre été sélectionnés au hasard pour répondre au questionnaire détaillé, lequel comportait 52 questions additionnelles sur le revenu, la scolarité, l’origine ethnique, et le statut d’Autochtone, entre autresNote 29.

Le fichier de données sur les répondants au questionnaire abrégé du recensement renferme des données sur les répondants au questionnaire détaillé, et comporte donc des enregistrements pour la presque totalité de la population (97 % de celle du Manitoba et 96 % de celle de l’Ontario). Le fichier de données sur les répondants au questionnaire détaillé ne porte que sur les ménages sélectionnés pour répondre au questionnaire détaillé (20 %).

Avant que n’ait lieu le couplage, le fichier du recensement a été épuré, nettoyé de ses enregistrements en double et validéNote 29,Note 30. Le fichier correspondant au questionnaire abrégé a été soit couplé aux registres provinciaux de l’assurance-maladie, puis à la BDCP (approche fondée sur un registre), soit couplé directement à la BDCP (approche non fondée sur un registre). L’inclusion dans le couplage de tous les enregistrements du recensement a permis de repérer les enregistrements provenant des registres provinciaux de l’assurance-maladie et de la BDCP pour les répondants qui avaient rempli le questionnaire abrégé uniquement et de supprimer ces enregistrements. Ont été gardées dans la cohorte de l’étude seuls les enregistrements pour les personnes qui avaient répondu au questionnaire détaillé du recensement.

Registres provinciaux de l’assurance-maladie (approche fondée sur un registre)
Dans l’approche fondée sur un registre, on a utilisé le fichier d’enregistrements du Régime d’assurance-maladie du Manitoba (RAMM) et la Base de données des personnes inscrites (BDPI) de l’Ontario comme fichiers de « rapprochement ». Une fois les données du recensement couplées avec celles d’un registre provincial de l’assurance-maladie, il devient possible de coupler les données du recensement avec celles de la BDCP, grâce à la concordance des NAM.

Le RAMM et la BDPI comprennent les enregistrements des personnes éligibles pour recevoir des services de santé, au Manitoba et en Ontario respectivement. Étant donné que l’inscription n’exige aucuns frais, la couverture de la population est élevéeNote 31-33. Les enregistrements pour les personnes qui ne vivent plus dans la province, mais qui demeurent couvertes jusqu’à trois mois après leur déménagement, sont inclus dans les deux registres. Chez les nouveaux résidents, il y a une période d’attente de trois mois pour être couvert. Les personnes couvertes par un autre régime (par exemple, les détenus, ainsi que les membres de la GRC et des Forces canadiennes) sont exclues.

Avant d’être couplées avec les données du recensement, les données du RAMM et de la BDPI ont fait l’objet d’un prétraitement, lors duquel on a repéré les cas de personnes ayant plusieurs NAM (Manitoba = 0,2 % ou 3 588 cas; Ontario = 1 % ou 165 123 cas). Seuls étaient conservés dans la cohorte de l’étude les enregistrements comportant un nom (de famille), une date de naissance antérieure au 1er janvier 2007, une assurance valide au cours de la période du 31 décembre 2005 au 1er janvier 2007 et, le cas échéant, une date de décès postérieure au 31 décembre 2005Note 36.

Base de données sur les congés des patients de 2006-2007
La BDCP comprend des données démographiques, administratives (y compris le NAM) et cliniques pour tous les congés reçus des hôpitaux de soins de courte durée, ainsi que de certains hôpitaux de soins psychiatriques, de soins de réadaptation pour malades chroniques et de soins de longue durée, ainsi que de certains services de chirurgie d’un jourNote 34-35. La version de 2006-2007 de la BDCP porte sur les congés d’hôpital survenus du 1er avril 2006 au 31 mars 2007 inclusivement (n = 3 186 079).

Fichiers maîtres des particuliers T1 pour 2005-2006-2007 (approche non fondée sur un registre)
Afin de tenir compte des changements de code postal survenus avec le temps et d’améliorer la qualité du couplage avec la BDCP selon l’approche non fondée sur un registre, les codes postaux tirés des dossiers de l’impôt de Statistique Canada pour 2005, 2006 et 2007 (Fichiers maîtres des particuliers T1 – FMPT1) ont été versés au fichier de données sur les personnes ayant rempli le questionnaire abrégé du recensement. À partir du sexe, de la date de naissance et de noms et prénoms partiels, la plupart des enregistrements du recensement (91 %) ont pu être couplés à au moins une année de données sur l’impôt. Dans le cas des personnes qui ne produisent pas de déclaration de revenu chaque année et (ou) qui ne sont pas tenues de le faire (p. ex.  les enfants), les codes postaux ont été repérés et attribués grâce aux renseignements fournis par les autres membres déclarants du ménage.

Couplage d’enregistrements

Approche fondée sur un registre
Le couplage fondé sur un registre a été effectué en deux étapes. Premièrement, les enregistrements du recensement tirés du questionnaire abrégé pour le Manitoba et l’Ontario ont été couplés par une méthode probabiliste aux registres provinciaux de l’assurance-maladie, en vue d’obtenir les NAM. Deuxièmement, à partir des NAM, les enregistrements du recensement tirés du questionnaire détaillé appariés à ces registres ont été couplés par une méthode déterministe à la BDCP (figure 1).

Des scores de probabilité fondés sur les similarités quant à la date de naissance, au code postal, au sexe, au nom et au prénom ont servi à estimer la probabilité que les enregistrements appariés représentent la même personneNote 19,Note 37,Note 38. Des poids (positifs/négatifs) ont été attribués aux champs de comparaison et leur somme a servi à créer un poids de couplage global. Des seuils distincts servant à distinguer les appariements vrais des non-appariements ont été prédéterminés pour le Manitoba et l’Ontario, à partir des répartitions de ces poids. En raison de la taille des fichiers de l’Ontario, le fait de comparer chaque enregistrement du recensement avec chaque enregistrement du registre était prohibitif. Par conséquent, on a fractionné le fichier de l’Ontario, de sorte que seuls les enregistrements pour un même sexe ont été comparés. On n’a pas procédé ainsi pour le Manitoba parce que la population et les fichiers étaient de plus petite taille.

On a classé les paires d’enregistrements d’après leurs scores. On a considéré que celles dont le score était supérieur au seuil prédéterminé constituaient un appariement. Avant de fixer définitivement les seuils, on a examiné les paires d’enregistrements s’en rapprochant et les seuils ont été corrigés au besoin.

Les fichiers recensement–registres couplés renfermant les identificateurs du recensement ainsi que les NAM ont ensuite servi au couplage par une méthode déterministe des identificateurs du recensement aux fichiers de la BDCP. Seuls les identificateurs du recensement correspondant aux personnes ayant rempli le questionnaire détaillé ont été conservés pour l’analyseNote 38.

Approche non fondée sur un registre
L’approche non fondée sur un registre avait recours à l’appariement exact hiérarchique déterministe de clés de couplage constituées de combinaisons de trois variables communes au questionnaire abrégé du recensement et aux enregistrements de la BDCP (date de naissance, code postal et sexe) (figure 2). L’appariement a nécessité la comparaison de paires d’enregistrements recensement–BDCP, afin de déterminer si elles avaient trait à la même personne. Si seuls les appariements utilisant une clé avaient été acceptés, les taux de couplage auraient été plus faiblesNote 12. En utilisant plusieurs clés successivement, l’appariement exact hiérarchique déterministe représente une précision qui permet de maximiser la puissance de discrimination des données de couplage et de réduire l’incidence des valeurs manquantes et des erreursNote 16.

Les données ont été reformatées en vue du couplage. Lorsque les enregistrements n’indiquaient pas le sexe (n ~ 312 000, recensement; n ~ 300, BDCP), on a attribué un sexe à l’enregistrement existant et créé un autre enregistrement comportant la même date de naissance et le même code postal, mais pour le sexe opposé. On a également créé un autre enregistrement lorsque le code postal tiré du recensement était différent de celui issu du traitement (n ~ 525 000).

On a repéré les enregistrements multiples pour une seule personne dans les fichiers du recensement et de la BDCP, à partir du numéro d’identification de groupe et de la clé NAM (NAM + province), ce qui a facilité leur suppression une fois le couplage terminé.

Selon le couplage non fondé sur un registre, on a utilisé une approche itérative selon laquelle on a appliqué 28 règles aux fichiers recensement–BDCP, une à la suite de l’autre. Les règles dans les premières itérations étaient strictes; les subséquentes admettaient des divergences. Par exemple, la première itération exigeait un appariement exact entre les enregistrements du recensement et de la BDCP pour la date de naissance, le sexe et le code postal. Dans les itérations 2 à 4, un appariement exact était nécessaire pour la date de naissance, le sexe et le code postal entre la BDCP et les FMPT1 pour 2005, 2006 et 2007. Aux itérations 5 à 10, les règles visant le code postal s’assouplissaient, ce qui permettait de laisser tomber l’un des six caractères du code. Ce processus a été répété en utilisant les codes postaux provenant des FMPT1 pour 2005, 2006 et 2007 (itérations 11 à 28). Après chaque itération, les enregistrements du recensement comportant le même numéro d’identification de groupe et ceux de la BDCP indiquant la même clé NAM que dans le couplage ont été supprimés d’itérations subséquentes, afin que les sujets pris en compte dans les fichiers du recensement et dans les fichiers de la BDCP à cause de clés de couplage multiples, ne soient couplées qu’une fois.

Il était possible, dans chaque ensemble de données, d’avoir des enregistrements comportant des clés de couplage en double, en particulier dans la BDCP, car pour une année donnée, une personne pouvait avoir plusieurs dossiers d’hôpital portant la même date de naissance, le même sexe et le même code postal. Afin de gagner en efficacité et d’éliminer tout résultat d’égalité éventuel, avant d’entreprendre le couplage on a supprimé les enregistrements en double des fichiers du recensement et de la BDCP à l’aide de cette clé de couplage. Une fois le couplage terminé, les enregistrements du recensement qui avaient été ajoutés pour tenir compte des codes postaux du recensement incohérents et (ou) du sexe manquant ont été supprimés du fichier, et les enregistrements de la BDCP que l’on avait laissés de côté (pour hospitalisations multiples de la même personne) y ont été rajoutés. Enfin, seuls les enregistrements associés à l’hospitalisation de résidents du Manitoba et de l’Ontario ont été conservés aux fins de la présente étude comparative.

Protéger la confidentialité des données du répondant

Statistique Canada s’assure de protéger la confidentialité des données du répondant au cours du processus de couplage et de l’utilisation subséquente des fichiers de données couplées. Seuls les employés impliqués directement dans le processus de couplage ont accès aux identificateurs uniques requis pour le couplage (par exemple les noms et le numéro d’assurance-maladie) et ils n’ont pas accès à l’information qui à trait à la santé. Lorsque le processus de couplage est terminé, un fichier analytique de données est créé dans lequel tous les identificateurs personnels sont supprimés. L’accès à ce fichier libre d’identificateurs est réservé aux analystes aux fins de validation et d’analyses.

Nombres d’enregistrements

Pour l’approche fondée sur un registre, le nombre d’enregistrements tirés du questionnaire abrégé du recensement qui ont été utilisés pour le couplage était de 1 111 133 pour le Manitoba et de 11 704 729 pour l’Ontario. Du RAMM, on a pris 1 201 152 enregistrements et de la BDPI, 13 121 593 enregistrements. De ceux-ci, 246 578 des 278 937 enregistrements tirés du questionnaire détaillé pour le Manitoba et 2 136 455 des 2 387 911 enregistrements qui en ont été tirés pour l’Ontario ont été couplés à un fichier de l’assurance-maladie. Ceux-ci étaient donc admissibles au couplage avec la BDCP fondé sur un registre (tableau 1).

Étant donné que l’on n’avait pas besoin des registres provinciaux de l’assurance-maladie pour l’approche non fondée sur un registre, la plupart des enregistrements tirés du questionnaire abrégé du recensement pour les résidents de la plupart des provinces/territoires étaient admissibles au couplage avec la BDCP (n = 23 592 671). Les enregistrements du recensement ont été exclus s’ils renfermaient une date de naissance ou un code postal non valide ou manquant, ou encore si le code postal au moment du recensement et le code postal après le recensement se rapportaient à une adresse au Québec. (Les personnes du Québec dénombrées au recensement n’étaient pas admissibles au couplage parce que Statistique Canada n’a pas accès aux dossiers sur les hospitalisations au Québec.) La cohorte définitive pour l’étude non fondée sur un registre comptait 278 937 enregistrements tirés du questionnaire détaillé du recensement pour le Manitoba et 2 387 911 enregistrements pour l’Ontario.

Selon l’une ou l’autre approche, les enregistrements de la BDCP comportant une date de naissance après le 16 mai 2006 (jour du recensement) étaient exclus, tout comme les enregistrements se rapportant aux personnes résidant à l’étranger et aux mortinaissances. Aux fins du couplage fondé sur un registre, seuls les enregistrements de la BDCP comportant un NAM valide pour le Manitoba (227 069) ou l’Ontario (1 081 443) ont été retenus. En ce qui concerne le couplage non fondé sur un registre, on n’a retenu que les enregistrements de la BDCP pour lesquels il ne manquait aucun renseignement sur la date de naissance et le code postal (2 106 104).

Validation

Taux de couplage
Pour évaluer les taux de couplage obtenus selon l’approche avec registre, on a examiné les pourcentages de répondants au recensement qui ont été couplés au RAMM ou à la BDPI. Compte tenu des différences de couverture au recensement et dans les fichiers des registres provinciaux de l’assurance-maladie, les taux de couplage devraient être voisins de 100 %, sans toutefois l’atteindre.

Selon les deux approches (avec et sans registre), on a calculé les taux de couplage (global et selon certaines caractéristiques sociodémographiques) avec la BDCP pour les répondants ayant rempli le questionnaire détaillé du recensement au Manitoba et en Ontario. Ces taux devraient refléter la prévalence d’au moins une hospitalisation au cours de l’exercice 2006-2007, et on s’attend à ce qu’ils soient plus élevés chez les groupes de personnes dont la probabilité d’être hospitalisé est plus élevée (p. ex. les personnes âgées).

Exactitude du couplage
On a calculé la sensibilité (vrais positifs) et la spécificité (vrais négatifs) pour évaluer l’exactitude du couplage au niveau de l’enregistrement. Les résultats fondéssur l’approche du registre ont été utilisés à titre de « norme de référence » pour la comparaison des résultats de l’approche sans registreNote 2,Note 3,Note 11,Note 15.

Dans le cas des enregistrements du recensement pour lesquels les deux approches ont donné lieu à un couplage à la BDCP, on a comparé les NAM pour évaluer la cohérence interne. Les appariements constituaient la preuve de couplages exacts.

Analyse de la couverture
On a calculé les taux de couverture pour chaque approche en divisant le nombre de congés d’un hôpital de soins de courte durée qu’avaient reçus les répondants au questionnaire détaillé du recensement au Manitoba et en Ontario d’après les données du couplage recensement–BDCP (numérateur) par le nombre de congés de ce genre déclarés dans les données non couplées de la BDCP pour 2006-2007 (dénominateur). On a calculé les taux de couverture non pondérés et pondérés pour chaque approche, y compris les taux globaux et ceux se rapportant aux hospitalisations attribuables à trois diagnostics « principaux » : maladies du système circulatoire, lésions traumatiques et empoisonnements, ainsi que grossesse, accouchement et puerpéralité.

Les inférences au niveau de la population doivent être basés sur des poidsNote 39. Après l’application des poids, les taux de couverture devraient se rapprocher de 100 %, sans toutefois l’atteindre. Sans l’application de poids, les taux de couverture devraient se situer autour du pourcentage de la population ayant répondu au questionnaire détaillé du recensement (25 % au Manitoba; 20 % en Ontario). Compte tenu des différences de couverture de la population dans les données recensement–BDCP couplées et les données de la BDCP non couplées, on ne s’attend pas à une correspondance exacte. Par exemple, on tient compte des personnes vivant en établissement – de gros utilisateurs de services hospitaliersNote 40,Note 41 – dans les données non couplées de la BDCP, mais pas dans les données résultant du couplage recensement–BDCP. Les poids du recensement n’ont pas été corrigés de ces irrégularités, si bien que leur application pourrait fausser certaines estimations.

Afin que la population de la BDCP ressemble davantage à la population cible des fichiers couplés, on a soustrait du dénominateur les enregistrements de la BDCP pour les populations suivantes : les résidents de maisons pour personnes âgées (2 368 congés pour le Manitoba et 24 487 pour l’Ontario, selon la BDCP), les personnes nées après le jour du recensement, les mortinaissances et les non-Canadiens.

Caractéristiques sociodémographiques
Pour chaque famille économique ou personne seule, on a déterminé le revenu total après impôt provenant de toutes les sources et pour tous les membres de la famille, que l’on a corrigé pour tenir compte de la composition et de la taille de la famille et séparé en quintiles de revenu.

Le niveau le plus élevé de scolarité des personnes de 18 ans et plus a été défini en fonction de deux catégories : diplôme d’études secondaires ou pas de diplôme d’études secondaires.

La situation d’emploi a été définie en fonction des catégories « occupé(e) », « en chômage » ou « inactif(ve) ».

Les répondants ont été divisés en quatre catégories, selon leur connaissance autodéclarée des langues officielles du Canada : français seulement, anglais seulement, français et anglais, ni le français ni l’anglais.

Les données sur le statut d’Autochtone ont été tirées de la question : « Cette personne est-elle un Autochtone, c’est-à-dire un Indien de l’Amérique du Nord, un Métis ou un Inuit (Esquimau)? » Les répondants devaient indiquer toutes les réponses qui s’appliquaient. Les réponses ont été groupées en six catégories : Indien de l’Amérique du Nord (seulement), Métis (seulement), Inuit (seulement), autre Autochtone (origines multiples ou indéterminées), Autochtone (total des quatre catégories précédentes), et non-Autochtone.

Le pays de naissance, la citoyenneté et la situation à l’égard de l’immigration ont été groupés en une variable du statut d’immigrant, dont les catégories étaient : immigrant, non immigrant ou résident non permanent.

On a créé une variable de la mobilité résidentielle sur un an pour refléter les changements d’adresse. Elle comprenait les catégories « même adresse », « déménagement au Canada » ou « déménagement depuis l’extérieur du Canada ». On l’a calculée en comparant pour chaque répondant la municipalité et la province de résidence le jour du recensement et un an plus tôt.

Une variable de la résidence en région rurale/urbaine a permis de refléter le lieu de résidence et la taille de la collectivité. Les régions de résidence agricoles ou non agricoles comptant une population de moins de 1 000 habitants ont été considérées comme rurales/agricoles. Les autres régions de résidence comprenaient les petits centres de population (de 1 000 à 29 999 habitants), les centre de population moyens (de 30 000 à 99 999 habitants) et les gros centres de population (100 000 habitants et plus).

Résultats : hospitalisations
D’après la BDCP, on a déterminé le nombre total d’hospitalisations toutes causes confondues pour lesquelles les dates du congé allaient du 1er avril 2006 au 31 mars 2007 inclusivement, pour le Manitoba et l’Ontario.

Les hospitalisations attribuables à une maladie du système circulatoire devaient comporter un diagnostic principal (DxP) dont le code de la Classification internationale des maladies, 10e révision, se situait entre J00 et J99. Les hospitalisations imputables aux lésions traumatiques et empoisonnements étaient celles correspondant aux codes S00-S99 ou T00-T98. Les hospitalisations attribuables à la grossesse, l’accouchement et la puerpéralité correspondaient aux codes O00-O99.

Résultats du couplage

Recensement–registres provinciaux de l’assurance-maladie (approche fondée sur un registre)

Dans le cas de l’approche fondée sur un registre, 88 % (246 578) des répondants du Manitoba au recensement (questionnaire détaillé) et 89 % (2 136 455) des répondants de l’Ontario (questionnaire détaillé) ont été couplés au RAMM et à la BDPI, respectivement, et ont ainsi constitué la cohorte de l’étude admissible pour le couplage à la BDCP à partir d’un registre (tableau 1). (Les pourcentages de répondants ayant rempli le questionnaire abrégé du recensement qui ont été couplés aux registres étaient quelque peu plus élevés, soit 93 % pour le Manitoba et 90 % pour l’Ontario.)

Les taux de couplage des enregistrements des répondants au questionnaire détaillé du recensement à ceux des registres de l’assurance-maladie variaient selon les caractéristiques sociodémographiques. Par exemple, les taux au Manitoba allaient de 85 % pour les enfants de moins d’un an à 92 % pour les personnes de 65 à 74 ans. Les taux de couplage étaient relativement faibles pour les personnes du quintile de revenu inférieur, les personnes ayant déclaré ne connaître ni l’une ni l’autre des langues officielles du Canada, les résidents non permanents et les personnes qui ne vivaient pas au Canada l’année précédant le recensement. Les taux de couplage chez les groupes autochtones allaient de 76 % à 89 %.

Recensement–BDCP (approche non fondée sur un registre)

Dans le cas de l’approche non fondée sur un registre, 80 % ou 1,69 million de clés de la BDCP (Canada, sauf le Québec) ont été couplées à un enregistrement tiré du questionnaire abrégé du recensement (tableau 2). La majorité des couplages entre le recensement et la BDCP ont été obtenus à la première itération (72 % ou 1,52 million), laquelle exigeait un appariement exact pour la date de naissance, le sexe et le code postal. À partir des données sur le code postal tirées des dossiers de l’impôt FMPT1, les itérations 2 à 4 ont donné lieu à 80 000 couplages de plus (4 %), et les itérations 5 à 28, à 68 000 couplages additionnels (3 %).

Comparaison des approches

Les pourcentages de répondants du Manitoba et de l’Ontario au questionnaire détaillé du recensement pour lesquels un couplage à la BDCP a eu lieu étaient similaires pour l’une et l’autre approche (tableau 3). Selon l’approche fondée sur un registre, 7 % des Manitobains avaient été hospitalisés dans un établissement de soins de courte durée; selon l’approche non fondée sur un registre, le pourcentage était de 6 %. En Ontario, le taux pour les deux approches était de 5 %.

Comme on pouvait s’y attendre, les données couplées reflétaient des différences d’utilisation des services hospitaliers. Par exemple, peu importe la province ou l’approche utilisée pour le couplage, un pourcentage plus élevé de femmes que d’hommes avaient été hospitalisées. Les enfants de moins d’un an et les personnes âgées étaient plus susceptibles que les personnes d’autres groupes d’âge d’être couplés aux dossiers d’hôpital. D’autres caractéristiques corrélées à l’âge et (ou) à l’incapacité, comme le fait d’être inactif, étaient associées à des taux d’hospitalisation plus élevés.

Sensibilité et spécificité

Les résultats du couplage avec la BDCP étaient les mêmes pour la majorité des enregistrements tirés du questionnaire détaillé du recensement, peu importe l’approche. La sensibilité et la spécificité des couplages d’enregistrements pour le Manitoba étaient de 87,9 % et 98,8 % respectivement; les chiffres correspondants pour l’Ontario étaient 89,4 % et 99,6 % (tableau 4).

L’uniformité des NAM parmi les répondants au recensement ayant été couplés à la BDCP selon l’une ou l’autre approche était également élevée. À peu près tous (99 %) les répondants du Manitoba (24 487) et de l’Ontario (106 968) au questionnaire détaillé du recensement qui ont été couplés à la BDCP selon les deux approches ont été liés au même NAM selon chaque approche.

Évaluation de la couverture

Les taux de couverture pour les hospitalisations toutes causes confondues dans les deux provinces étaient comparables pour les couplages fondés sur un registre et ceux non fondés sur un registre. Peu importe l’approche, les taux de couverture non pondérés étaient de 23 % au Manitoba et de 17 % en Ontario (tableau 5). Les taux de couverture pondérés étaient similaires eux aussi : au Manitoba et en Ontario, 84 % pour l’approche fondée sur un registre, et 82 % pour celle non fondée sur un registre.

Les taux de couverture variaient selon l’âge. Les taux non pondérés pour les Manitobains de 75 ans et plus étaient inférieurs de 5 ou 6 points de pourcentage au total tous âges confondus. Dans le cas des enfants du Manitoba de 1 à 4 ans, les taux pondérés étaient inférieurs au total tous âges confondus de 18 (registre) et 16 (pas de registre) points de pourcentage. Tant au Manitoba qu’en Ontario, et selon les deux approches, les taux pondérés pour les 20 à 24 ans étaient plus faibles (de 6 à 7 points de pourcentage) que le total tous âges confondus.

Dans le cas des hospitalisations pour une cause précise, les taux de couverture non pondérés étaient plus près des cibles pour l’Ontario et le Manitoba que les taux de couverture pondérés. En outre, les taux de couverture non pondérés pour une cause précise avaient tendance à être plus similaires d’une approche à l’autre que ceux calculés avec des facteurs de pondération.

Discussion

Selon l’approche fondée sur un registre, on a couplé aux registres provinciaux de l’assurance-maladie environ 90 % des répondants au questionnaire détaillé du recensement, ce qui a permis le couplage subséquent avec la BDCP à partir des NAM. Ce taux est élevé étant donné que les études canadiennes à grande échelle ont fixé à 75 % le seuil à partir duquel les données couplées sont considérées acceptables pour la rechercheNote 8,Note 15,Note 26. À l’instar d’autres études, la présente analyse montre que les couplages axés sur le nom (approche fondée sur un registre) produisent des taux de couplage légèrement plus élevés que les couplages non axés sur le nom (approche non fondée sur un registre), mais que les deux conviennent pour la rechercheNote 1.

Plusieurs caractéristiques associées aux taux de couplage plus faibles se dégageant de la présente analyse ont été signalées auparavantNote 5,Note 42-44. Les taux de couplage ont été relativement faibles pour les personnes ayant un faible statut socioéconomique, celles s’identifiant comme Autochtones, celles ne connaissant pas les langues officielles du Canada, les résidents des régions rurales et les personnes s’étant installées récemment au Canada.

Les résultats des couplages avec la BDCP fondé et non fondé sur un registre étaient similaires : 5 % des répondants au recensement en Ontario et 6 % à 7 % de ces personnes au Manitoba ont été couplés aux données tirées des dossiers d’hôpital. Par ailleurs, les données couplées allaient dans le sens des tendances prévues de l’utilisation des services hospitaliers du fait que des pourcentages plus élevés de pauvres, de personnes âgées et de personnes s’identifiant comme Autochtones avaient été hospitalisésNote 45,Note 46. Cela donne à penser que l’approche non fondée sur un registre peut produire un ensemble de données dont le niveau de qualité convient pour la recherche.

L’évaluation de la couverture a révélé une uniformité entre les approches utilisées pour le couplage. Les taux de couverture non pondérés étaient plus élevés au Manitoba qu’en Ontario, ce qui reflète le pourcentage plus élevé de Manitobains qui ont rempli le questionnaire détaillé du recensement, ainsi que des taux d’hospitalisation plus élevés au ManitobaNote 47. Après l’application des poids, les taux de couverture pour le Manitoba et l’Ontario souvent étaient plus similaires.

Dans les données couplées, l’hospitalisation des personnes âgées, des enfants de 1 à 4 ans et des personnes de 15 à 44 ans avait tendance à être sous-estimée. Dans une certaine mesure, cela vient du fait que la population représentée dans les données provenant du questionnaire détaillé du recensement ne correspond pas exactement aux groupes de population saisis dans les données hospitalières. Par exemple, les données couplées ne tiennent pas compte de la population vivant en établissement, mais les données hospitalières en tiennent compte en partie. Les faibles taux de couverture chez les jeunes adultes peuvent dépendre du sous-dénombrement au recensement des personnes dont les modalités relatives au logement varient et (ou) d’une couverture incomplète de certains Autochtones en OntarioNote 48,Note 49.

Limites

Les données couplées comportent plusieurs limites. La présente étude ne portant que sur deux provinces, on ne connaît pas très bien les possibilités de généralisation des résultats à d’autres secteurs de compétence. Des analyses préliminaires de taux de couverture ont laissé entendre qu’il est difficile d’atteindre la signification statistique lorsque les covariables sont définies de façon trop étroite. Les résultats indiquant que la couverture diminue parfois suite à l’application de poids portent à croire que l’utilisation des poids du recensement devrait être envisagée au cas par cas.

Mot de la fin

La comparaison des approches pour le couplage fournit des preuves qu’il est possible de produire des données dont la qualité suffit pour la recherche sans avoir à recourir aux registres provinciaux de l’assurance-maladie, auxquels Statistique Canada n’a pas accès la plupart du temps. Les possibilités qu’offre le fichier couplé non fondé sur un registre en ce qui a trait à la recherche sont grandes en raison de l’échantillon représentatif de la population nationale et de la puissance statistique attribuable à sa taille et à sa couverture. Quoi qu’il en soit, les utilisateurs de données couplées devraient tenir compte de l’incidence sur leurs analyses de la méthode de couplage, des taux de couplage et de couverture, et de l’exclusion de certains groupes de population.

Date de modification :