Couplage des données du Recensement de 2006 et des données hospitalières au Canada

par Michelle Rotermann, Claudia Sanmartin, Richard Trudeau et Hélène St-Jean

Le couplage d’enregistrements, c’est-à-dire le processus d’appariement d’enregistrements entre différents ensembles de données ou à l’intérieur d’un seul ensemble, est couramment utilisé par les chercheurs dans le domaine de la santé pour combler les lacunes statistiquesNote 1-7 et créer des ensembles de données ayant des applications diversifiéesNote 6-11. La majorité des couplages de données sur la santé au Canada se sont fondés sur les numéros d’assurance-maladie (NAM) extraits des registres provinciaux de l’assurance-maladie, qui sont uniques pour chaque personneNote 2,Note 3,Note 11,Note 12. Cependant, les NAM ne sont pas enregistrés dans la plupart des bases de données (p. ex., mortalité, recensement, impôt), et l’accès aux registres provinciaux est limité.

En l’absence d’un identificateur et/ou registre unique, une approche de rechange, soit l’appariement exact déterministe hiérarchique, peut servir au couplage des bases de données administratives sur la santé avec d’autres sources de donnéesNote 13. L’approche consiste à apparier différentes combinaisons d’identificateurs cooccurrents au niveau de la personneNote 14-18. Statistique Canada a démontré la validité de cette approche en couplant les données du recensement et les données sur les hospitalisations pour deux provinces (l’Ontario et le Manitoba)Note 19. En appariant les fichiers à partir de la date de naissance, du sexe et du code postal, on a obtenu des résultats similaires à ceux fondés sur les NAM extraits des registres provinciaux d’assurance-maladieNote 19.

La présente étude fait état des résultats d’un couplage par appariement exact hiérarchique de données du Recensement de la population de 2006 et de données hospitalières pour toutes les provinces et les territoires (sauf le Québec) provenant de la Base de données sur les congés des patients (BDCP) pour la période 2006-2007 à 2008-2009. Elle a pour but de déterminer si le couplage recensement—BDCP donne des résultats similaires d’un secteur de compétence à l’autre, et si les taux de couplage et de couverture diminuent en fonction du temps écoulé depuis le recensement. Le couplage a été approuvé par le Comité des politiques de Statistique CanadaNote 20. L’utilisation des données couplées est régie par la Directive sur le couplage d’enregistrementsNote 21.

Sources des données

Recensement de la population de 2006

Les données du Recensement de 2006 ont été recueillies au moyen d’un questionnaire abrégé et d’un questionnaire détaillé ou complet. La plupart des ménages (80 %) ont reçu le questionnaire abrégé, qui comptait huit questions de base, y compris sur la date de naissance, le sexe et l’état matrimonial de tous les membres du ménage. Les autres ménages (20 %) ont reçu le questionnaire détaillé, qui comportait 53 autres questions portant sur des sujets comme la scolarité, l’ethnicité, la mobilité, le revenu et l’emploiNote 22. Dans certaines régions, tous les ménages devaient remplir le questionnaire détaillé. C’était le cas au Nunavut, dans les Territoires du Nord-Ouest (sauf Yellowknife), au Yukon (sauf Whitehorse) et dans les réserves indiennes et les établissements indiens22Note 22. Le recensement représente 95 % à 97 % de la population des provinces et 93 % à 94 % de la population des territoiresNote 23.

Pour le couplage d’enregistrements, on a utilisé le fichier intégral du recensement (23,4 millions d’enregistrements), qui contient à la fois les enregistrements extraits du questionnaire abrégé et ceux tirés du questionnaire détaillé. La cohorte fondée sur les enregistrements pour le questionnaire détaillé (4,65 millions d’enregistrements) est celle utilisée dans la présente étude aux fins de validation.

Lorsque des inférences au sujet de la population canadienne sont faites à partir de données extraites du questionnaire détaillé, souvent les données sont pondéréesNote 24. Les poids d’échantillonnage permettent de tenir compte du plan de sondage ainsi que de la sous-représentation ou surreprésentation de personnes présentant certaines caractéristiquesNote 25. Les poids du recensement n’ont pas été ajustés en fonction de l’admissibilité pour le couplage.

La collecte et le traitement des données du recensement étaient soumis à des normes de qualité rigoureusesNote 22. De plus, les données du recensement ont fait l’objet d’une vérification de la qualité, y compris de comparaisons avec d’autres sources de données. Les réponses incohérentes ou manquantes ont été imputées afin d’assurer la cohérence interne de l’information fournie par chaque ménage. Le taux d’imputation global a été de 2,9 % et les taux d’imputation des variables « âge » et « sexe » ont été inférieurs à 1,5 %.

Le succès de la collecte des données dépendait de l’exactitude des adresses, y compris les codes postaux.Dans les régions où les questionnaires du recensement avaient été distribués par la poste, Statistique Canada a validé et, au besoin, modifié les adresses avant le jour du recensement (16 mai 2006). Dans les régions où les questionnaires avaient été distribués par les agents recenseurs, les adresses figuraient dans une liste et ont été vérifiées au moment de la livraison.

Fichier maître sur les particuliers T1

Le Fichier maître sur les particuliers T1 (FMPT1) est un fichier annuel tiré des déclarations d’impôt. On y trouve le nom de la personne, la date de naissance, le sexe et le code postal, qui peuvent servir au couplage d’enregistrements. Pour les répondants au recensement dont le code postal était manquant, incomplet ou avait changé, on a couplé les FMPT1 pour 2005 à 2009 avec le fichier du Recensement de 2006 (questionnaire abrégé) de manière déterministe, à partir du sexe, de la date de naissance et des nom de famille et premier prénom partiels; les renseignements sur le revenu n’ont pas été utilisés. Environ 90 % des enregistrements du recensement ont été couplés à au moins un FMPT1 annuel. Dans le cas des personnes qui n’avaient pas produit une déclaration de revenus chaque année et(ou) qui n’étaient pas tenus d’en produire une (par exemple, les enfants), les codes postaux ont été attribués à partir de l’information sur les autres membres déclarants du ménage.

Base de données sur les congés des patients (BDCP)

La BDCP contient environ 3 millions de dossiers d’hôpital renfermant des données démographiques, administratives et cliniques, ainsi que les NAM, pour tous les congés reçus d’un établissement de soins de courte durée, et certains congés obtenus d’un hôpital psychiatrique, d’un hôpital pour malades chroniques, d’un établissement de réadaptation ou d’un service de chirurgies d’un jour au cours d’un exercice financier donné (1er avril au 31 mars) dans toutes les provinces, sauf le Québec, et les territoiresNote 26,Note 27. Des études de seconde saisie des données, qui comparent certains champs des dossiers des patients avec les données correspondantes dans l’enregistrement original de la BDCP, ont trouvé à maintes reprises que les éléments de données non cliniques, y compris la date de naissance, le sexe et le code postal, sont d’une grande fiabilité, des différences ayant été observées dans ces champs dans moins de 2 % des casNote 27.

Aux fins du couplage d’enregistrements, on a utilisé les données couvrant la période 2005-2006 à 2008-2009 de la BDCP pour la phase du prétraitement de la présente étude. Les données se rapportant à la période 2006-2007 à 2008-2009 ont été utilisées pour la phase du couplage des données (2006-2007 n = 3 186 079; 2007-2008 n = 3 204 838; 2008-2009 n = 3 232 396). Comme les enregistrements ont trait aux hospitalisations, non aux personnes, il est possible que les personnes hospitalisées à plusieurs reprises soient représentées plus d’une fois dans la BDCP.

Méthodes

Le couplage d’enregistrements comportait trois étapes, à savoir le traitement des données, le couplage d’enregistrements et la validation.

Traitement des données

Avant que ne soit effectué le couplage, les données ont été traitées afin d’améliorer la qualité des variables visées (date de naissance, code postal et sexe) et d’établir l’ensemble unique de clés de couplage dans chaque fichier de données, de manière à obtenir le moins de faux couplages possible. Ce traitement avait pour but de découvrir les erreurs ou les omissions dans les données qui pouvaient entraîner de faux couplages.

Au total, on disposait de 23 397 153 enregistrements du recensement pour le couplageNote 28 (figure 1). Les enregistrements pour le Québec ont été exclus parce que Statistique Canada n’a pas accès aux données de cette province sur les hospitalisations. Les enregistrements du recensement comportant une date de naissance non valide ou incomplète ont été exclus également. Lorsque le sexe manquait sur un enregistrement, on a attribué un sexe et on a créé un enregistrement en double comportant la même date de naissance et le même code postal, mais non le même sexe. Les enregistrements comportant un code postal différent dans le champ original et le champ post-traitement ont aussi été créés en double, le premier avec le code postal original, et l’autre avec le code post-traitement. Les enregistrements du recensement originaux et en double ont été associés au moyen d’un identificateur de groupe de recensement, ce qui a permis le repérage et le retrait des doublons après le couplage. Enfin, une série d’exclusions ont été appliquées aux enregistrements du recensement pour établir l’ensemble final de clés de couplage valides et uniques. Les clés suivantes ont été exclues : les clés en double comportant les mêmes date de naissance, code postal et sexe (par exemple, des jumeaux de même sexe habitant à la même adresse); les clés de couplage non valides repérées par suite du traitement des données de la BDCP (décrit ci-dessous); et les clés comportant une date de naissance tombant après le 16 mai 2006 (jour du recensement). Au total, 23 369 308 clés de recensement valides et uniques se prêtaient au couplage de données, ce qui représente 96 % des répondants au recensement (ceux du Québec non compris).

Les enregistrements de la BDCP ayant trait aux résidents canadiens hospitalisés dans d’autres provinces que le Québec et dans les territoires pour les exercices financiers 2005-2006 à 2008-2009 étaient admissibles pour un prétraitement (12 824 006) (figure 2). Les enregistrements comportant des données non valides ou manquantes pour la date de naissance, le sexe ou le code postal ont été exclus. Les enregistrements restants de la BDCP ont fait l’objet d’un traitement approfondi afin d’améliorer l’uniformité et l’exactitude des NAM et d’assurer une correspondance univoque avec les clés de couplage. Un ajustement couramment employé consiste à remplacer un NAM temporaire (normalement celui de la mère) ou absent pour un nouveau-né par un NAM permanent lui ayant été subséquemment attribué et ayant par la suite figuré dans les enregistrements d’hospitalisation.

Plus de 12,7 millions d’enregistrements de la BDCP comportant des données valides aux fins de couplage ont été retenues, ce qui représente 7 686 518 clés de couplage uniques et valides (figure 2). Le grand nombre de clés de couplage en double n’avait rien de surprenant étant donné qu’une personne pouvait être hospitalisée à plusieurs reprises. Les clés suivantes ont été exclues : les clés de couplage associées à plus d’un NAM dans la même province; les clés non valides repérées par suite du traitement des données du recensement, décrit plus haut; et les clés comportant une date de naissance qui tombait après le jour du recensement. Au total, 6 172 706 clés de couplage uniques et valides se rapportant aux exercices 2006-2007 à 2008-2009 ont été retenues aux fins du couplage des données.

Couplage d'enregistrements

La méthode de couplage par appariement exact déterministe hiérarchique utilisée pour rapprocher les enregistrements du recensement et ceux de la BDCP comportait un processus itératif, selon lequel les clés de couplage indiquant une date de naissance, un sexe et un code postal étaient comparées entre fichiers. L’utilisation de clés multiples appliquées de façon consécutive permet de maximiser la puissance différenciatrice des données de couplage et de réduire au minimum l’incidence des erreurs et des données manquantesNote 13.

L’approche itérative intégrait 28 règles. Les premières itérations respectaient des règles rigoureuses, tandis que les subséquentes admettaient un certain degré de désaccord (tableau 1). Par exemple, la première itération exigeait une correspondance parfaite pour la date de naissance, le sexe et le code postal entre le fichier du recensement et les clés de couplage de la BDCP. Aux itérations 2 à 4, il devait y avoir une correspondance parfaite de la date de naissance, du sexe et du code postal entre le FMPT1 et les clés de couplage de la BDCP. On a utilisé les codes postaux dans les dossiers de l’impôt pour 2005, 2006 et 2007 lorsque le fichier du recensement s’appariait à la BDCP pour 2006-2007. Lorsqu’il s’appariait aux données de la BDCP pour 2007-2008 et pour 2008-2009, respectivement, on se référait respectivement aux dossiers de l’impôt pour 2006 à 2008 et pour 2007 à 2009. Aux itérations 5 à 10, les règles se rapportant au code postal étaient moins rigoureuses, de sorte que l’un des six caractères du code postal déclaré au recensement pouvait être omis. Ce processus a été repris en utilisant les codes postaux provenant des FMPT1 (itérations 11 à 28).

À chaque itération, seules les clés uniques de couplage d’un fichier étaient comparées aux clés uniques de l’autre fichier. Une fois une itération terminée, les clés couplées étaient soustraites des itérations ultérieures de manière que chaque clé ne soit couplée qu’une fois. Les clés couplées qui avaient été ajoutées pour tenir compte de données manquantes pour le sexe et(ou) le code postal et qui avaient le même identificateur de groupe de recensement ont également été retirées à cette étape. Lorsqu’une clé du recensement était couplée à une clé de la BDCP, on appliquait un couplage déterministe à l’ensemble des enregistrements de congé d’hôpital de la BDCP, à partir de la clé de couplage, du NAM correspondant et de la province de délivrance. Le traitement des données et le couplage d’enregistrements ont été exécutés en SAS, v. 9.2.

Validation

Deux types de taux de couplage sont présentés. Premièrement, pour chaque itération du couplage, on présente le pourcentage des clés de la BDCP qui ont été couplées avec une clé du fichier de recensement. On ne s’attendait pas à ce que le taux de couplage final soit de 100 %, compte tenu des différences entre les populations représentées dans le fichier du recensement et le fichier de la BDCP, du sous-dénombrement au recensement de certaines sous-populations et de l’utilisation des services hospitaliers par les personnes entrées au Canada après le jour du recensement (p. ex. les nouveaux immigrants). On s’attendait à observer des taux de couplage faibles également chez les personnes qui vivaient en établissement (p. ex., un établissement de soins de longue durée), puisque ces personnes se trouveraient à partager le même code postal, ce qui pourrait réduire la qualité des résultats ayant trait à l’unicité des clés de couplage.

Deuxièmement, le pourcentage des enregistrements du recensement qui étaient admissibles pour le couplage qui ont été couplés à la BDCP (2006-2007 à 2008-2009) sont présentés selon la province ou le territoire, pour certaines caractéristiques sociodémographiques. Ces taux sont fondés sur les personnes ayant rempli le questionnaire détaillé du recensement (la cohorte de validation) qui étaient admissibles pour le couplage (4 652 683 enregistrements, ce qui représente 94 % des questionnaires détaillés) et reflètent la prévalence d’au moins une hospitalisation au cours de l’exercice financier respectif (tableau 3). On s’attendait à ce que les taux de couplage soient plus élevés dans certains groupes de population, par exemple les aînés, qui sont plus susceptibles d’être hospitalisés en comparaison des personnes non âgées. La variation observée dans les taux de couplage d’une province ou d’un territoire à l’autre pourrait aussi refléter des différences relativement à la prestation des soins de santéNote 29.

Analyse de la couverture

Lorsqu’une fraction seulement des enregistrements seront présumément couplés, l’évaluation de la qualité d’un couplage de données représente un défi, ce qui arrive typiquement dans le cas de couplages de données sur la santé où, par exemple, le nombre attendu de personnes qui seront hospitalisées ou décéderont au cours de la période de suivi est limité. Dans de telles situations, il n’est pas facile de savoir si un enregistrement non couplé représente un couplage manqué ou si l’événement d’intérêt ne s’est pas produit. Pour évaluer la qualité de couplages de ce genre, on a comparé les résultats d’approches différentes fondées sur les mêmes donnéesNote 16,Note 17,Note 30-33 et comparé les taux de résultat et les répartitions en pourcentage pour des variables disponibles dans des données couplées et des données non coupléesNote 30,Note 34,Note 35.

On a calculé les taux de couverture annuels non pondérés et pondérés à l’échelle nationale (le Québec non compris) et selon le secteur de compétence, en divisant le nombre de sorties d’hôpital (établissements de soins de courte durée) chez les personnes ayant rempli le questionnaire détaillé du recensement dans chaque secteur de compétence, d’après les données tirées du couplage recensement–BDCP (numérateur), par le nombre de sorties d’hôpital (établissements de soins de courte durée) d’après les données non couplées de la BDCP pour 2006-2007, 2007-2008 et 2008-2009 (dénominateur). Afin d’assurer une concordance plus étroite avec les populations visées par les données couplées, dans la mesure du possible, on a retiré du dénominateur les enregistrements de la BDCP se rapportant aux populations non saisies à l’aide du questionnaire détaillé du recensement, c’est-à-dire les résidents de foyers pour personnes âgées, les personnes nées après le jour du recensement, les morts-nés et les non-Canadiens.

Les taux de couverture non pondérés devraient se rapprocher du pourcentage de la population ayant rempli le questionnaire détaillé (environ 20 % à l’échelle nationale, variant de 16 % pour Terre-Neuve-et-Labrador à 63 % à 69 % pour le Nunavut)Note 22,Note 24. Les taux de couverture pondérés devraient être voisins de 100 % sans toutefois l’atteindre, compte tenu des différences entre les populations représentées par les données couplées et celles reflétées dans les données non couplées de la BDCP. Par exemple, la population vivant en établissement, un grand consommateur de services hospitaliersNote 36,Note 37, est prise en compte dans les données non couplées de la BDCP, mais non dans les données tirées du couplage recensement–BDCP.

Caractéristiques sociodémographiques

Les taux de couplage ont été comparés selon certaines caractéristiques socioéconomiques visées par le recensement afin de déterminer s’ils étaient plus élevés chez les personnes susceptibles d’être hospitalisées, comme les personnes à faible revenu et les AutochtonesNote 36,Note 38,Note 39.

Les quintiles de revenu ont été calculés au niveau de la famille économique ou établis directement pour les personnes seulesNote 23. On a calculé le revenu total après impôt en additionnant le revenu provenant de toutes les sources pour tous les membres de la famille ou pour la personne seule. Celui-ci a ensuite été ajusté en fonction de la taille de la famille, puis réparti en fonction de quintiles.

Le niveau de scolarité le plus élevé dans le cas des personnes de 18 ans et plus a été réparti en fonction de deux catégories, à savoir diplôme d’études secondaires ou plus, et pas de diplôme d’études secondaires. Les personnes de moins de 18 ans, pour la plupart trop jeunes pour détenir un diplôme, ont été exclues.

L’information relative au statut d’Autochtone se fonde sur la question « Cette personne est-elle un Autochtone, c’est-à-dire un Indien de l’Amérique du Nord, un Métis ou un Inuit (Eskimau)? ». Les répondants au recensement devaient cocher toutes les réponses qui s’appliquaient. Les réponses ont été regroupées en six catégories, à savoir Indien de l’Amérique du Nord (seulement), Métis (seulement), Inuit (seulement), autre Autochtone (origines multiples ou indéterminées), Autochtone (combinaison d’origines parmi les quatre catégories précédentes), et non-Autochtone.

Le pays de naissance, la citoyenneté et le statut d’immigrant ont été combinés en une variable, soit statut d’immigrant (immigrant, non-immigrant ou résident non permanent). Les immigrants ont ensuite été classés en immigrants de longue date (arrivés au moins 10 ans avant le Recensement de 2006) et immigrants récents (arrivés tout au plus neuf ans avant le Recensement de 2006).

Une variable sur la mobilité (lieu de résidence un an auparavant) a été créée pour rendre compte des changements d’adresse (même adresse, autre adresse au Canada ou autre adresse à l’extérieur du Canada). La variable a été dérivée en comparant la municipalité et la province de résidence du recensé le jour du recensement et un an plus tôt.

Une variable sur le milieu rural/urbain reflétait l’emplacement et la taille de la collectivité. Étaient considérées habiter en milieu rural/agricole les personnes vivant dans une collectivité de moins de 1 000 habitants, que ce soit dans une ferme ou non. Les centres de population pouvaient être petits (1 000 à 29 999 habitants), moyens (30 000 à 99 999 habitants) ou grands (100 000 habitants ou plus).

Protection de la confidentialité des données du répondant

Statistique Canada assure la protection de la confidentialité des données du répondant pendant et après le couplage. Seuls les employés que le couplage concerne directement ont accès aux identificateurs uniques requis pour le couplage (p. ex. le nom et le numéro d’assurance-maladie) et ils ne voient pas les données sur la santé. Une fois le couplage de données terminé, on crée un fichier analytique duquel on soustrait les identificateurs personnels. Ce fichier sans identificateurs est utilisé par les analystes pour la validation et l’analyse.

Résultats

Résultats du couplage

En tout, 80 % (1,66 million) des clés de la BDCP admissibles pour 2006-2007 ont été couplées aux données du Recensement de 2006 (tableau 1). Les résultats étaient similaires pour l’exercice 2007-2008 de la BDCP (78 % des clés admissibles, ou 1,60 million) et pour 2008-2009 (77 % des clés admissibles, ou 1,57 million). La majorité des couplages (72 % pour 2006-2007 à 59 % pour 2008-2009, ou 1,50 à 1,22 million, respectivement) ont été obtenus à la première itération, pour laquelle il devait y avoir une correspondance parfaite de la date de naissance, du sexe et du code postal. Le nombre de couplages obtenus à partir des codes postaux dans les dossiers d’impôt (itérations 2 à 4) variait de 79 000 (4 %) pour 2006-2007 à 265 000 (13 %) pour 2007-2008. Les itérations 5 à 28 ont donné lieu à 85 000 à 88 000 (4 %) autres couplages, selon l’année de la BDCP.

Les pourcentages de clés de la BDCP qui ont été couplées avaient tendance à être uniformes d’une province à l’autre et d’un groupe d’âge à l’autre, à quelques exceptions près (tableau 2). Par exemple, les pourcentages étaient comparativement faibles en Alberta (77 % pour l’exercice 2006-2007 de la BDCP à 73 % pour 2008-2009), en Colombie-Britannique (78 % à 75 %) et dans les territoires (73 % à 72 %). On a également observé des taux faibles chez les nourrissons de moins de 1 an (73 % à 68 %) et chez les 15 à 24 ans (70 % à 61 %).

Le pourcentage des répondants au recensement dénombrés à l’aide du questionnaire détaillé qui ont fait l’objet d’un couplage avec la BDCP (c’est-à-dire, qui avaient été hospitalisés) variait de 5,6 % (2006-2007) à 5,2 % (2008-2009) (tableau 3). Les taux de couplage reflétaient les écarts attendus d’utilisation des services hospitaliers. Le taux chez les femmes était plus élevé que chez les hommes. Les nourrissons qui avaient moins de 1 an le jour du recensement (16 mai 2006) et les personnes âgées constituaient les groupes d’âge où l’on était le plus susceptible de faire l’objet d’un couplage avec la BDCP pour l’exercice 2006-2007. Au cours des exercices de la BDCP subséquents, le taux de couplage chez les personnes âgées est demeuré comparativement élevé, mais chez les moins de 1 an en date du jour du recensement, il a reculé, rejoignant celui observé pour les enfants qui étaient âgés de 1 à 4 ans le jour du recensement. Comptaient parmi d’autres groupes ayant des taux de couplage élevés les personnes appartenant à un quintile de faible revenu (6 %) et les personnes ayant déclaré être d’identité autochtone (7 %). En général, les taux de couplage avaient tendance à être plus élevés en milieu rural qu’en milieu urbain.

Évaluation de la couverture

Les taux de couverture associés aux hospitalisations toutes causes confondues pour 2006-2007 à 2008-2009 ont été de 17 % (sans pondération) et de 80 % à 78 % (avec pondération) (tableau 4), mais ils variaient selon le secteur de compétence. Par exemple, les taux de couverture non pondérés variaient de 16 % à 22 % dans les provinces, et de 29 % à 69 % dans les territoires. Les taux de couverture pondérés variaient de 75 % à 84 % dans les provinces, et de 62 % à 72 % dans les territoires.

Au cours de la période visée par l’étude, les taux de couverture non pondérés et pondérés étaient similaires par sexe, mais non par groupe d’âge. Les taux pondérés pour 2006-2007 pour les moins de 1 an et pour les 15 à 24 ans étaient de 6 à 10 points de pourcentage inférieurs au total tous âges confondus. Les taux de couverture pondérés fondés sur les fichiers couplés pour 2007-2008 et pour 2008-2009 reflétaient cette tendance également, mais comme l’âge était défini en fonction du recensement plutôt que d’après les données sur les hospitalisations, le sous-dénombrement des jeunes dans l’avant-dernier et le dernier fichier de la BDCP s’observait chez les groupes d’âge qui suivaient.

Discussion

Selon la méthode d’appariement exact déterministe hiérarchique, environ 80 % des clés de couplage identifiées dans les données hospitalières ont été couplées avec le Recensement de 2006. Ce taux est similaire à celui qui ressort d’autres études canadiennes qui ont signalé un taux de couplage de 75 % parmi les enregistrements pour lesquels on s’attendait à un couplageNote 5,Note 40,Note 41.

L’approche hiérarchique a permis de trouver des couplages qu’un appariement exact déterministe exécuté en une seule itération aurait manquésNote 13. Bien que la majorité des couplages réalisés aux fins de la présente étude ont eu lieu au cours de la première itération, un autre 8 % à 17 % se sont produits lors d’itérations subséquentes. L’utilisation de codes postaux mis à jour à partir des données d’impôt afin de tenir compte de la mobilité a entraîné d’autres couplages avec les données hospitalières, particulièrement dans le cas des années les plus récentes, et a permis de franchir un obstacle couramment associé à la plupart des études de suivi selon le recensementNote 42. Les taux de couplage, la couverture et la qualité des couplages de données sont demeurés constants pendant la période de trois ans visée par l’étude.

Les taux de couplage avec la BDCP chez la cohorte des personnes dénombrées à l’aide du questionnaire détaillé ont été de 5 % à 6 %, ce qui représente le pourcentage ayant été hospitalisées au moins une fois au cours des trois années. Les taux de couplage étaient plus élevés chez certains groupes, à savoir les personnes âgées, les personnes appartenant aux quintiles inférieurs de revenu et les Autochtones. Cette observation concorde avec celles de travaux antérieursNote 36,Note 38,Note 39, et vient étayer la validité du processus de couplage ainsi que la pertinence d’utiliser des données couplées dans les analyses de la santé.

L’analyse de la couverture a révélé que le fichier de données couplées recensement–BDCP tient compte de la majorité des hospitalisations survenues au cours de la période visée par l’étude (résultats pondérés). De plus, les profils d’hospitalisation selon les caractéristiques des patients étaient similaires aux résultats obtenus à partir de la simple BDCP, à quelques exceptions près.

Les taux de couverture non pondérés variaient selon la région géographique, les territoires, le Manitoba et la Saskatchewan présentant les taux les plus élevés. Cela tient à la stratégie d’échantillonnage utilisée pour le recensement, en fonction de laquelle jusqu’à 100 % des répondants au recensement vivant dans les régions éloignées et dans les réserves indiennes et établissements indiens devaient remplir le questionnaire détaillé. Une fois la pondération effectuée, les taux de couverture pour le Manitoba et la Saskatchewan étaient plus près de ceux observés pour les autres provinces, mais les taux pondérés étaient tout de même plus faibles pour les territoires que pour les provinces. Il est possible que les taux d’hospitalisation des habitants des territoires soient sous-estimés dans les données couplées en raison du sous-dénombrement, de leurs taux de mobilité élevés et(ou) de la tendance chez eux à être hospitalisés hors de leur territoire de résidenceNote 22,Note 24.

Comme on s’y attendait, l’analyse a révélé un sous-dénombrement potentiel des cas d’hospitalisation selon certains groupes d’âge. Dans le cas des nourrissons âgés de moins de 1 an, les faibles taux de couplage et de couverture pourraient être attribuables à l’absence de NAM dans les enregistrements de naissance des hôpitauxNote 43. Malgré que l’on ait tenté au cours du traitement des données de résoudre ces cas, certains n’ont probablement pas été résolus. Les taux de couverture étaient faibles également chez les 15 à 24 ans, ce qui reflète peut-être le sous-dénombrement au recensement des personnes ayant une situation de vie moins stable et(ou) le dénombrement incomplet de certaines populations autochtonesNote 22,Note 44. Étant donné que ces populations peuvent présenter des taux d’hospitalisation relativement élevés, les couplages manqués ont peut-être une incidence plus importante sur les taux de couverture que ne le suggèrent les nombres absolusNote 38.

Les jumeaux de même sexe résidant à la même adresse le jour du recensement et les jumeaux hospitalisés de même sexe auxquels correspondait le même code postal ont été supprimés du fichier de données couplées en raison de leurs clés de couplage non uniques. Cela étant dit, les naissances multiples (jumeaux ou plus) représentent environ 3 % de toutes les naissances annuellement, et celles de trois enfants ou plus de même sexe sont plus rares encoreNote 45.

Limites

Le fichier recensement–BDCP couplé comporte plusieurs limites importantes.

Premièrement, pour obtenir un ensemble de clés de couplage uniques, il a été nécessaire de retirer certaines clés des fichiers du recensement et de la BDCP. Dans le cas du questionnaire abrégé, 97,6 % des clés ont été conservées; dans celui du questionnaire détaillé, on en a conservées environ 94 %. Le taux d’admissibilité plus faible chez les personnes ayant rempli le questionnaire détaillé du recensement ressortait le plus chez les personnes ayant un faible statut socioéconomique, les personnes d’identité autochtone, les personnes vivant en milieu rural ou dans une exploitation agricole et les habitants du Nunavut et de la Colombie-Britannique. Une telle situation tient à des facteurs tels que l’enregistrement inexact ou incomplet de la date de naissance et(ou) d’autres renseignements démographiquesNote 5,Note 15,Note 34,Note 46.

Deuxièmement, aux fins d’analyse de la couverture, on a comparé les hospitalisations dans le fichier recensement–BDCP couplé à celles dans les seules données de la BDCP. Les populations visées diffèrent toutefois. Bien que l’on ait tenté de retirer les enregistrements de la BDCP qui correspondaient à une personne non dénombrée lors du recensement (questionnaire détaillé), il est possible que certains y soient demeurés.

Enfin, le Québec est exclu de la présente étude parce que les données hospitalières pour cette province ne sont pas fournies à Statistique Canada. Les hospitalisations au Québec de personnes vivant à l’extérieur du Québec ne sont d’ailleurs pas reflétées dans les données couplées.

Mot de la fin

L’échantillon qui est représentatif de la population nationale et la puissance statistique qu’offre le fichier de données couplées, compte tenu de sa taille et de sa couverture, fournissent de nouvelles occasions de recherche. L’analyse des taux annuels de couplage et de couverture donne à penser que l’intégralité et la qualité du fichier sont demeurées constantes au fil du temps. Il conviendrait que les chercheurs qui utiliseront ces données couplées tiennent compte de l’incidence éventuelle des méthodes de couplage, des différences d’admissibilité pour le couplage, des taux de couplage et de couverture ainsi que des groupes de populations exclues de l’étude.

Date de modification :