Modélisation des données sur les facteurs de risque pour les données de recensement couplées : l'usage du tabac

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

par Claudia Sanmartin, Philippe Finès, Saeeda Khan, Paul Peters, Michael Tjepkema, Julie Bernier et Rick Burnett

De plus en plus, on a recours aux données administratives pour suivre la santé de la population et mieux comprendre l’utilisation des services de santé et les résultats pour la santé. Les avantages que présentent les données administratives pour la recherche sur la santé comprennent des cohortes de taille importante fondées sur la population, de faibles coûts de collecte et un biais réduit des cas perdus de vue au suivi1-3. Malgré ces avantages, les données administratives renferment peu de renseignements au niveau de la personne, qui souvent se limitent aux caractéristiques démographiques, comme l’âge et le sexe, ou ne tiennent pas compte des caractéristiques socioéconomiques ou des facteurs de risque, ce qui permettrait de parvenir à une meilleure compréhension des résultats en matière de santé.

Afin de combler ces lacunes, les approches écologiques ont « annexé » aux données administratives des mesures au niveau de la région, comme les indicateurs du statut socioéconomique propres au quartier, par exemple4-6. Toutefois, les méthodes écologiques sont sujettes à des erreurs de classification ainsi qu’à une sous-estimation de la taille de l’effet et ne se prêtent pas aux ajustements en fonction de facteurs concurrents7-9. Par ailleurs, les résultats d’études fondées sur la région font ressortir non seulement les caractéristiques de la population, mais aussi celles du contexte physique et social des régions géographiques spécifiques10.

On a également eu recours à des techniques statistiques pour effectuer des ajustements indirects relatifs aux données manquantes sur les résultats pour la santé. Par exemple, la régression « partitionnée » fait appel à des données provenant de sources auxiliaires dans les ajustements pour tenir compte des données manquantes sur les facteurs de risque11. Cette approche dépend de la disponibilité de données auxiliaires dans les sources de données externes ou dans les ouvrages publiés.

On a de plus en plus recours au couplage des données pour combler les lacunes dans les données administratives. Par exemple, les données au niveau de la personne recueillies dans le cadre d’enquêtes sur la santé ont été couplées aux données tirées de dossiers hospitaliers dans des études sur les grands déterminants de l’utilisation des services hospitaliers12-14. Ces couplages sont riches en données sur la personne, mais la taille de l’échantillon et des facteurs associés à la couverture constituent souvent des limites en ce qui concerne les analyses portant sur des sous-groupes et des résultats moins courants.

Pour remédier à la situation, Statistique Canada a entrepris une série de projets de couplage entre les données provenant du formulaire complet du recensement et les données sur les résultats en matière de santé, notamment la mortalité, l’hospitalisation et le cancer15,16. Ces ensembles de données couplées offrent des données socioéconomiques exhaustives au niveau de la personne et des échantillons de taille importante, mais on y relève des lacunes en ce qui a trait aux facteurs de risque, comme l’usage du tabac et l’obésité.

La présente étude évalue la faisabilité d’utiliser des techniques de modélisation statistique pour combler les lacunes associées aux facteurs de risque, notamment l’usage du tabac, dans les données de recensement couplées15. En se fondant sur l’Enquête sur la santé dans les collectivités canadiennes (ESCC), on a élaboré des algorithmes prédictifs en vue de modéliser la situation d’usage du tabac à partir de variables communes à l’ESCC et au formulaire complet du Recensement de 1991. On a validé la variable résultant de ces algorithmes (usage du tabac) en comparant la contribution des situations d’usage du tabac modélisée et autodéclarée pour la prédiction d’hospitalisations liées à l’usage du tabac à partir de données d’enquêtes sur la santé et données hospitalières couplées. Cette étape était considérée comme importante, étant donné que pour évaluer l’utilité de cette approche, il est essentiel de comprendre la façon dont les données modélisées se comportent dans une analyse.

Méthodes

Source des données

On a utilisé les données de l’ESCC pour élaborer et valider des modèles prédictifs de la situation d’usage du tabac. L’ESCC est une enquête transversale qui fournit des données concernant la santé et le mode de vie de la population à domicile de 12 ans et plus des provinces et des territoires ne vivant pas en établissement, ainsi que l’utilisation faite par celle-ci des soins de santé. L’enquête exclut les membres à temps plein des Forces canadiennes et les habitants des réserves indiennes et de certaines régions éloignées. Une description détaillée de l’ESCC est disponible ailleurs17.

L’ESCC de 2000-2001, le cycle le plus proche dans le temps de la cohorte du Recensement de 1991 couplée, a servi à élaborer les modèles prédictifs. Le taux de réponse a été de 85 %, ce qui représente un échantillon total de 131 535 personnes. L’échantillon sur lequel repose la présente étude ne tient compte que des participants à l’enquête de 25 ans et plus, soit le même critère d’âge que pour la cohorte du Recensement de 1991 couplée. Les enregistrements pour lesquels il manquait des données sur la situation d’usage du tabac ont été exclus, ce qui a donné un échantillon final de 104 204 participants à l’ESCC.

Les données tirées de l’ESCC de 2002-2003 ont servi à la validation externe des modèles prédictifs. Le taux de réponse a été de 81 %, ce qui représente un échantillon total de 134 072 personnes. Des exclusions similaires ont donné lieu à un échantillon de validation final de 107 398 personnes.

Les données provenant de l’ESCC de 2002-2003, couplées à la Base de données sur la morbidité hospitalière (BDMH) (2001-2002 à 2004-2005), ont servi à évaluer les associations entre les situations d’usage du tabac modélisée et autodéclarée et les hospitalisations liées à l’usage du tabac. La BDMH est un ensemble de données administratives au niveau de la personne portant sur les hospitalisations dans la plupart des hôpitaux de soins actifs et dans certains hôpitaux psychiatriques, de soins de longue durée et de réadaptation au Canada18. Le couplage des données a été effectué pour les participants à l’ESCC vivant à l’extérieur du Québec qui ont consenti au couplage et qui ont fourni un numéro d’assurance-maladie personnel valide (n=81 364). Des exclusions similaires ont été appliquées aux données couplées (25 ans et plus; données manquantes sur l’usage du tabac), ce qui a produit un échantillon final de 52 396 personnes. Des détails concernant le couplage des données figurent ailleurs12,19.

Élaboration de modèles prédictifs

Des modèles distincts ont été élaborés pour prédire les estimations pour deux catégories d’usage du tabac : les personnes fumant quotidiennement et les personnes n’ayant jamais fumé. Les catégories d’usage du tabac ont été calculées à partir des données autodéclarées dans l’ESCC20. Les personnes fumant quotidiennement étaient celles qui avaient déclaré fumer sur une base quotidienne dans le cadre de l’enquête (1=oui, 0=non). Les personnes n’ayant jamais fumé étaient celles qui avaient déclaré n’avoir jamais fumé ou avoir fumé moins de 100 cigarettes au cours de leur vie (1=oui, 0=non). Les tentatives de prédiction concernant les anciens fumeurs ont été infructueuses, les modèles ne permettant pas de faire de distinction entre les personnes fumant quotidiennement, les personnes n’ayant jamais fumé et les anciens fumeurs.

Aux fins de la prédiction de la situation d’usage du tabac, les variables de l’ESCC devaient avoir été incluses dans le recensement (formulaire complet) et on devait avoir démontré ou fait l’hypothèse qu’elles étaient associées à l’usage du tabac. Dans la mesure du possible, les variables de l’ESCC ont été codées pour correspondre aux définitions des variables du recensement. Des variables économiques, sociodémographiques, de logement et ethnoculturelles ont servi à prédire la situation d’usage du tabac (tableau 1).

Des modèles de régression logistique multivariée ont été élaborés pour prédire la probabilité d’être une personne fumant quotidiennement et une personne n’ayant jamais fumé. Les analyses préliminaires ayant révélé une variabilité des facteurs associés à la situation d’usage du tabac selon le sexe et le groupe d’âge, on a élaboré des modèles propres aux combinaisons de sexe et de groupe d’âge. L’échantillon complet de l’étude a été utilisé dans les deux ensembles de modèles, afin de pouvoir attribuer à chaque participant à l’ESCC une estimation de la probabilité d’être une personne fumant quotidiennement et une estimation de la probabilité d’être une personne n’ayant jamais fumé. On a eu recours à la technique pas à pas, afin d’assurer la sélection de la liste de variables la plus courte possible pour chaque combinaison de sexe et de groupe d’âge; les variables ont été incorporées dans le modèle par ordre décroissant d’importance de la signification. Des poids d’enquête ont été utilisés, et la méthode du bootstrap (rééchantillonnage) a été appliquée aux modèles de régression multivariée finaux, afin de tenir compte du plan de sondage complexe de l’ESCC. Les modèles ont été élaborés au moyen de PROC LOGISTIC en SAS, version 9.1.

Des seuils propres au modèle ont été établis pour répartir les participants à l’enquête en catégories d’usage du tabac. Plus particulièrement, on a produit des courbes caractéristiques de la performance d’un test (courbes ROC pour Receiver Operating Characteristic curves)21-24 pour déterminer les seuils de probabilité optimaux propres à l’âge et au sexe. Une personne était identifiée comme étant un cas positif si ses estimations de la probabilité d’être une personne fumant quotidiennement (ou une personne n’ayant jamais fumé) dépassaient les seuils optimaux. Les seuils optimaux ont été produits pour atteindre un équilibre entre les faux positifs et les faux négatifs, dans le but de réduire les premiers. Compte tenu de la taille importante des échantillons associés au recensement, on obtient un modèle plus précis en se concentrant sur les vrais positifs, même si un nombre important de faux négatifs sont produits.

La validation du modèle a été évaluée selon l’aire sous la courbe ROC (ASC), laquelle est le tracé de la sensibilité par rapport à 1 – spécificité (c.-à-d. un moins la spécificité). En outre, on a calculé le pourcentage de cas prédits correctement en comparant la situation d’usage du tabac autodéclarée à celle qui était obtenue dans les modèles.

Attribution de la situation d’usage du tabac

Les probabilités prédites pour les catégories d’usage du tabac de personne fumant quotidiennement et de personne n’ayant jamais fumé ont servi à classer chaque personne tant dans la catégorie des personnes fumant quotidiennement que dans celle des personnes n’ayant jamais fumé, d’après les seuils propres au sexe et à l’âge. Les deux systèmes de classification ont par la suite servi à l’attribution de la situation d’usage du tabac définitive :

Tableau
La situation d’usage du tabac
Sommaire du tableau
Le tableau montre les résultats de la situation d’usage du tabac. Les données sont présentées selon personne n’ayant jamais fumé (titres de rangée) et personne fumant quotidiennement, calculées selon oui et non unités de mesure (figurant comme en-tête de colonne).
Personne n’ayant jamais fumé Personne fumant quotidiennement
Oui Non
Oui Impossible à classer Personne n’ayant jamais fumé
Non Personne fumant quotidiennement Autre

Par exemple, les participants à l’enquête pour qui la probabilité d’être une personne n’ayant jamais fumé dépassait le seuil propre au groupe âge-sexe et la probabilité d’être une personne fumant quotidiennement était inférieure au seuil ont été classés dans la catégorie des personnes n’ayant jamais fumé. Les participants à l’enquête pour qui les probabilités les plaçaient à la fois dans la catégorie des personnes fumant quotidiennement et dans celle des personnes n’ayant jamais fumé ont été considérés comme impossibles à classer et supprimés de l’analyse. Les participants à l’enquête entrant dans la catégorie autres n’ont été considérés ni comme fumant quotidiennement ni comme n’ayant jamais fumé; il pouvait s’agir de fumeurs occasionnels ou d’anciens fumeurs, ou encore de faux négatifs.

Des bandes de seuils, calculées selon seuil optimal +/-0,05 ou +/-0,10, ont été produites aux fins d’analyses de sensibilité. Si les probabilités prédites étaient supérieures (inférieures) au seuil le plus élevé (le moins élevé), les participants à l’enquête étaient considérés représenter des cas positifs (négatifs) quant à la situation de personne fumant quotidiennement et de personne n’ayant jamais fumé, ce que l’on estime être fondé étant donné que la valeur de résultat prédite ne correspond pas au produit final de l’analyse, mais plutôt à l’attribution de la situation d’usage du tabac appropriée.

Application de la situation d’usage du tabac modélisée

Les données de l’ESCC de 2002-2003 et les données hospitalières de 2001-2002 à 2004-2005 couplées ont servi à déterminer comment la variable modélisée de l’usage du tabac se comporte dans les analyses des issues en santé. Les objectifs étaient les suivants : 1) comparer l’association entre la situation d’usage du tabac et les hospitalisations liées à cet usage, pour les situations d’usage modélisée et autodéclarée; et 2) évaluer l’effet de l’utilisation d’une situation d’usage modélisée sur des covariables qui sont déjà utilisées pour prédire la situation d’usage du tabac (p. ex. le revenu, la scolarité). On a émis l’hypothèse que la taille de l’effet des covariables pourrait diminuer par suite de l’utilisation de la situation d’usage du tabac modélisée, étant donné que des variables similaires ont également servi à prédire la situation d’usage du tabac.

On a suivi les participants à l’ESCC sur une période de deux ans, à partir de la date de leur entrevue, afin d’identifier celles qui avaient connu au moins une hospitalisation liée à l’usage du tabac, celle-ci se définissant comme une admission liée à un diagnostic principal de maladie respiratoire, de maladie cardiovasculaire ou de cancer (d’après les codes de la CIM-9/10 et de la CIM-10-CA)25. On a effectué des analyses de régression logistique pour comparer les résultats de l’utilisation d’une situation d’usage du tabac modélisée plutôt qu’autodéclarée, en fonction des catégories suivantes : personne n’ayant jamais fumé (groupe de référence), personne fumant quotidiennement, et autre. Une approche d’élaboration de modèle a servi à générer des modèles non corrigés (Modèle 1 : situation d’usage du tabac uniquement), des modèles partiellement corrigés (Modèle 2 : situation d’usage du tabac plus âge et sexe), et des modèles entièrement corrigés (Modèle 3 : modèle 2 plus variables socioéconomiques).

Les poids d’enquête pour le fichier de l’ESCC couplé ont été rajustés par Statistique Canada, afin de tenir compte de la non-réponse à l’enquête et de l’exclusion des enregistrements des participants à l’enquête qui n’avaient pas consenti au couplage et/ou n’avaient pas fourni de numéro d’assurance-maladie plausible. Pour toutes les analyses, on a tenu compte du plan de sondage complexe de l’enquête en utilisant la méthode du bootstrap (rééchantillonnage) pour calculer les estimations de la variance et les intervalles de confiance.

Résultats

Population visée par l’étude

Selon les réponses à l’ESCC de 2000-2001, les personnes n’ayant jamais fumé représentaient environ 41 % de la population à domicile de 25 ans et plus, et les personnes fumant quotidiennement, 26 % de cette population (tableau 1). La majorité des personnes étaient mariées ou vivaient en union libre (71 %), occupaient un emploi (64 %), possédaient leur logement (73 %), vivaient avec au moins une autre personne (85 %), et étaient nées au Canada (76 %). Environ 40 % avaient au moins fait des études postsecondaires partielles. Un peu moins de la moitié (46 %) vivaient dans une région urbaine comptant plus de 500 000 habitants.

Modèles prédictifs

Les variables qui étaient importantes pour prédire la situation d’usage du tabac différaient selon le groupe d’âge et le sexe. Elles sont présentées en ordre d’importance de la signification dans le tableau 2. Dans le cas des modèles prédictifs de la situation de personne fumant quotidiennement, le quintile de revenu, le niveau de scolarité, l’état matrimonial, la propriété du logement et la région du monde du lieu de naissance étaient des prédicteurs significatifs pour tous les groupes âge-sexe. Dans le cas des modèles prédictifs de la situation de personne n’ayant jamais fumé, l’état matrimonial, la propriété du logement, l’ascendance autochtone et la région du monde du lieu de naissance étaient des prédicteurs significatifs pour tous les groupes âge-sexe. Une fois les seuils optimaux propres à l’âge et au sexe appliqués aux probabilités générées pour les modèles prédictifs, près de 80 % des participants à l’enquête ont été affectés à la catégorie des personnes fumant quotidiennement ou à celle des personnes n’ayant jamais fumé, 7,0 % ont été impossibles à classer, et 14,6 % ont été classés dans la catégorie autres.

Les valeurs de l’ASC allaient de 0,59 à 0,73 et de 0,60 à 0,70, respectivement, dans les modèles de personnes fumant quotidiennement et de personnes n’ayant jamais fumé. Calculé à partir des seuils optimaux, le pourcentage de cas prédits correctement fondé sur des valeurs modélisées allait de 54 % à 67 % pour les personnes fumant quotidiennement, et de 57 % à 65 % pour les personnes n’ayant jamais fumé, les valeurs de l’ASC diminuant avec l’âge. Le pourcentage de cas prédits correctement diminuait lorsqu’on utilisait des bandes plus larges (optimal +/-0,05 et optimal +/-0,10).

Situations d’usage du tabac modélisée et autodéclarée

Des modèles logistiques ont été élaborés pour comparer la contribution des situations d’usage du tabac modélisée et autodéclarée aux fins de la prédiction des hospitalisations liées à l’usage du tabac et de l’évaluation de l’effet de l’utilisation de la variable modélisée à l’égard des covariables qui avaient également servi à prédire la situation d’usage du tabac (p. ex. le revenu, le niveau de scolarité).

Comme il fallait s’y attendre, selon la situation d’usage du tabac autodéclarée, le fait d’être une personne fumant quotidiennement plutôt qu’une personne n’ayant jamais fumé était associé à une cote plus élevée exprimant le risque d’au moins une hospitalisation liée à l’usage du tabac, tant dans le modèle non corrigé que corrigé (tableau 3). L’association était similaire, mais plus faible, selon la situation d’usage du tabac modélisée. Les rapports de cotes non corrigés pour la situation de personne fumant quotidiennement modélisée allaient de 1,81 à 2,99, selon  la définition de seuil prise en considération. Les rapports de cotes demeuraient significatifs dans les modèles entièrement corrigés fondés sur le seuil optimal (RC : 1,30) et sur le seuil optimal +/-0,05 (RC : 1,52), mais étaient plus faibles que les rapports de cotes calculés à partir de la situation d’usage du tabac autodéclarée (RC : 2,19).

Dans l’ensemble, les variables comportant une association significative avec les hospitalisations liées à l’usage du tabac dans le modèle reposant sur la situation d’usage du tabac autodéclarée (modèle A) demeuraient significatives dans le modèle fondé sur la situation d’usage du tabac modélisée (tableau 4). L’âge avancé, l’identité autochtone, le veuvage, le faible niveau de scolarité et le chômage ou le fait de ne pas faire partie de la population active étaient systématiquement associés à une cote plus élevée exprimant le risque d’une hospitalisation liée à l’usage du tabac. Le sexe féminin et le fait de n’avoir jamais été marié(e) étaient associés à une cote plus faible exprimant le risque d’une hospitalisation liée à l’usage du tabac. Le revenu n’était pas associé aux hospitalisations liées à l’usage du tabac, peu importe si le modèle intégrait la situation d’usage du tabac autodéclarée ou modélisée.

Discussion

La présente étude avait pour but d’examiner la faisabilité d’utiliser des techniques de modélisation statistique pour prédire la situation d’usage du tabac, et d’évaluer ensuite l’association entre la variable modélisée et les hospitalisations liées à l’usage du tabac. Les caractéristiques socioéconomiques et démographiques qui étaient prédictives de la situation d’usage du tabac variaient selon l’âge et le sexe, ce qui fait ressortir l’importance d’élaborer des modèles propres à l’âge et au sexe.

L’étape de la validation a révélé des valeurs de l’ASC proches de 0,70 pour la plupart des modèles âge-sexe fondés sur le seuil optimal, celles-ci s’avérant légèrement inférieures aux valeurs obtenues dans d’autres études26. Toutefois, le présent projet est unique du fait qu’aucune variable liée à la santé n’a été utilisée pour prédire la situation d’usage du tabac, alors que dans d’autres études, les caractéristiques liées à la santé sont couramment utilisées pour prédire des résultats comme l’hospitalisation et la mortalité. Les valeurs de l’ASC étaient systématiquement faibles pour les modèles des femmes de 65 ans et plus, tant dans le cas des personnes fumant quotidiennement que des personnes n’ayant jamais fumé. La capacité de cerner la situation d’usage du tabac correctement à partir des modèles prédictifs diminuait lorsqu’on élargissait les seuils en en faisant des bandes.

La présente étude est née du besoin d’avoir des données sur les facteurs de risque dans les données tirées du couplage de données de recensement et de données administratives, afin de pouvoir étudier les caractéristiques associées aux résultats pour la santé. Ainsi, il était essentiel de démontrer la faisabilité d’utiliser la situation d’usage du tabac modélisée dans un contexte de recherche, ce que le couplage des données d’enquête et des données hospitalières a permis d’entreprendre.

Les résultats de l’analyse de régression effectuée pour comparer les associations entre la situation d’usage du tabac et les hospitalisations liées à cet usage, pour les situations d’usage modélisée et autodéclarée, démontrent la viabilité d’utiliser la variable modélisée. La situation d’usage du tabac modélisée se comporte de la même façon que la situation d’usage du tabac autodéclarée en ce qui a trait à la direction des associations et à leur signification, quoiqu’elle montre un effet plus faible. Qui plus est, l’utilisation de la situation d’usage du tabac modélisée ne fait pas disparaître les associations entre l’hospitalisation et d’autres covariables (p. ex., l’état matrimonial, la scolarité, la situation d’emploi). L’association entre la situation d’usage du tabac modélisée et l’hospitalisation s’atténue dans les modèles entièrement corrigés, mais demeure significative.

Limites

La présente étude comporte plusieurs limites. L’ESCC exclut des sous-groupes particuliers (membres des Forces canadiennes, habitants des réserves indiennes et de certaines régions éloignées), ainsi que les personnes qui n’ont pas consenti au couplage de leurs données. Ces exclusions peuvent avoir eu un effet sur les modèles finaux utilisés pour prédire la situation d’usage du tabac. La faisabilité d’utiliser la situation d’usage du tabac modélisée a été établie uniquement dans le contexte des hospitalisations liées à l’usage du tabac, au moyen d’une analyse de régression logistique. Un examen plus poussé est nécessaire pour déterminer si cette variable modélisée peut être utilisée dans les études où l’on se sert d’autres techniques (p. ex. l’analyse de la survie) ou résultats (p. ex. la mortalité).

Mot de la fin

Le couplage des données représente une méthode économique pour obtenir des données au niveau de la personne, afin d’étudier les résultats pour la santé au niveau de la population. Toutefois, il se peut que les données comportent des lacunes, plus particulièrement l’absence de données sur les facteurs de risque. La présente étude démontre la faisabilité d’utiliser des techniques de modélisation statistique pour enrichir les sources de données.

Date de modification :