Statistiques sur le logement au Canada
Développement d'un indicateur composite de qualité pour les produits statistiques dérivés de sources administratives

Passer au texte

Début du texte

Introduction

Au cours des dernières années, étant donné la multiplication des sources de données disponibles, des organismes nationaux de statistique, comme Statistique Canada, ont commencé à passer des méthodes axées sur les enquêtes pour produire des statistiques officielles à des modèles assistés par enquête où les enquêtes par échantillon sont devenues un complément aux autres sources de données ou ont été remplacées complètement par ces dernières (p. ex. sources administratives ou autres types de données, comme le moissonnage du Web ou la télédétection). Certaines de ces nouvelles sources de données, seules ou combinées à d’autres, représentent une occasion pour divers programmes statistiques d’améliorer les statistiques qu’ils produisent sur plusieurs dimensions de la qualité, comme l’exactitude et l’actualité. L’amélioration de l’actualité fait l’objet d’une évaluation directe, mais qu’en est-il de l’exactitude des données? Mesurer et communiquer l’exactitude des données lors de l’utilisation et de la combinaison de sources de données alternatives devient un défi important, car de nombreuses méthodes conventionnelles et la nomenclature correspondante utilisées sont largement ancrées dans la théorie de l’échantillonnage.

Statistique Canada se doit de faire connaître aux utilisateurs les concepts et la méthodologie utilisés dans la collecte, le traitement et l’analyse de ses données; l’exactitude des données; et toutes autres caractéristiques concernant la qualité des données ou « l’adéquation des données à leur utilisation », tel qu’il est indiqué dans la Politique visant à informer les utilisateurs sur la qualité des données et la méthodologie (Statistique Canada, 2000). Statistique Canada s’efforce d’indiquer aux utilisateurs la qualité de ses données grâce à l’utilisation d’indicateurs de qualité, qui sont conçus pour représenter l’ampleur de l’erreur présente dans les données. Les erreurs ou la variabilité des estimations peuvent provenir de diverses sources, comme les erreurs de saisie de données ou les erreurs inhérentes aux méthodes utilisées au cours de différentes étapes de traitement. Dans les enquêtes traditionnelles par échantillon, l’erreur d’échantillonnage, principale source d’erreur, est généralement évaluée et rapportée en termes d’indicateurs de qualité fondés sur le coefficient de variation ou en termes d’intervalles de confiance. Pour les données intégrées à partir de différentes sources administratives, il peut être plus difficile de mesurer la qualité de manière rigoureuse et interprétable.

Le présent article décrit l’élaboration d’un nouvel indicateur de qualité, qui informe les utilisateurs sur la qualité des estimations produites à l’aide de sources de données administratives seulement. Bien que Statistique Canada définisse la qualité en six dimensions (pertinence, exactitude, actualité, intelligibilité, cohérence et accessibilité [Statistique Canada, 2019]), l’indicateur décrit dans le présent article vise à informer l’utilisateur de l’exactitude des données. Ce nouvel indicateur de qualité, défini comme l’indicateur composite de qualité (ICQ), combine plusieurs indicateurs dérivés à différentes étapes du processus statistique pour créer un seul indicateur de l’exactitude globale de chaque estimation.

L’ICQ proposé a été appliqué de manière expérimentale pour la première fois au Programme de la statistique du logement canadien (PSLC). Le PSLC est un programme novateur, qui fournit aux Canadiens un large éventail de statistiques sur le logement, y compris des renseignements sur les propriétés résidentielles et leurs propriétaires. Le PSLC, lancé en 2017, intègre des données administratives provenant de diverses sources afin de constituer et de tenir à jour une base de données sur les propriétés résidentielles et les caractéristiques des propriétaires des provinces et territoires canadiens. 

Le présent article est organisé en quatre sections. Tout d’abord, on propose des indicateurs de qualité (IQ) individuels pour représenter la qualité des différents processus statistiques au sein du programme. Ensuite, on présente une méthode de partitionnement et de pondération, qui combine les IQ individuels en un ICQ. La troisième section donne un aperçu de l’interprétation de l’ICQ. La quatrième section souligne les limites de la méthode actuelle et quelques considérations pour une version améliorée. Enfin, une brève conclusion est offerte. On trouvera en annexe une illustration de l’application de cette approche pour les estimations diffusées dans trois tableaux du PSLC en septembre 2021.

1. Indicateurs de qualité individuels

Les sources d’erreur d’un programme fondé seulement sur des données administratives se limitent à des erreurs non dues à l’échantillonnage, comme les erreurs de couverture, les erreurs de non-réponse, les erreurs de traitement et les erreurs de mesure (Groves et Lyberg, 2010).  La première étape de l’approche ICQ consiste à établir des indicateurs de qualité individuels afin d’indiquer l’incidence de diverses erreurs non dues à l’échantillonnage sur l’exactitude des estimations administratives. La version expérimentale de l’ICQ exposée dans le présent article repose sur une série d’indicateurs de qualité individuels qui étaient facilement disponibles, et qui sont liés aux erreurs de non-réponse et de traitement seulement. Nous considérons le développement d’indicateurs de qualité individuels sur la couverture en vue d’itérations futures. Nous présentons ci-dessous au lecteur l’ensemble actuel d’indicateurs de qualité individuels provenant des différentes étapes d’un processus statistique. Toutefois, nous définissons tout d’abord la terminologie de base.

1.1 Terminologie de base

De nombreux produits de données diffusés par Statistique Canada sont des tableaux agrégés d’estimations, comme les comptes, les pourcentages, les totaux, les moyennes ou les médianes (type d’estimation). Ces estimations sont souvent des descriptions d’une variable d’intérêt pour l’ensemble de la population ou pour des sous-groupes spécifiques de la population (domaine). Les domaines peuvent être des catégories différentes d’une seule variable de domaine catégorique ou des combinaisons de catégories à travers les différentes variables de domaine. Par exemple, un utilisateur de données qui consulte le tableau 46-10-0027-01 : Participation à la résidence des propriétés résidentielles, par type de propriété et période de construction (Statistique Canada, 2021) du Programme de la statistique du logement canadien (PSLC) pourrait être intéressé par l’estimation de la valeur moyenne de l’évaluation foncière (variable d’intérêt) des propriétés individuelles non attenantes appartenant à des résidents, construites de 1961 à 1970, en Ontario (variables de domaine). Ce domaine est l’une des combinaisons possibles de catégories des variables de domaine : géographie, type de propriété, période de construction et participation à la résidence. Dans cet exemple, la valeur de l’évaluation foncière est la variable d’intérêt, c’est-à-dire la variable pour laquelle une estimation est présentée dans le tableau. Chaque indicateur de qualité individuel présenté dans la section suivante est lié à une variable de domaine ou à une variable d’intérêt. Dans l’application de l’approche d’ICQ présentée à la section 2, une valeur pour chaque indicateur de qualité individuel sera fournie pour chaque variable, au niveau du domaine.

1.2 Ensemble d’indicateurs de qualité individuels à différentes étapes de traitement

On trouvera ci-dessous un ensemble d’indicateurs de qualité individuels sur la non-réponse des données administratives et les aspects du traitement qui peuvent être pris en compte dans l’évaluation de l’exactitude des estimations administratives. Il ne s’agit pas d’une liste exhaustive de tous les indicateurs possibles, et celle-ci ne couvre pas toutes les étapes de traitement.

a. Codage

Pour fournir des concepts cohérents et uniformes aux utilisateurs, un processus de codage se produit souvent pour convertir les valeurs individuelles de différentes sources de données administratives en un ensemble de codes commun. Lorsqu’aucune donnée n’est disponible ou que les données ne peuvent être codées, d’autres processus, comme l’imputation, peuvent être utilisés pour fournir une valeur finale pour toutes les unités. Un taux de codage est défini comme le pourcentage d’unités administratives qui sont codées parmi toutes les unités incluses dans le domaine. En règle générale, un taux de codage élevé reflète un niveau élevé de qualité pour ce domaine.

Un exemple de taux de codage est le taux de géocodage, qui réfère à un processus de codage au cours duquel une unité administrative est affectée à une région géographique détaillée prédéfinie (p. ex. les subdivisions de recensementNote ), en fonction de l’information sur l’adresse de l’unité.

b. Géocodage

En plus du taux de géocodage, un autre indicateur de qualité individuel appelé score de confiance moyen du géocodage peut être utilisé pour démontrer la qualité de la région géographique détaillée assignée et est défini comme suit :

Score de confiance moyen du géocodage : À Statistique Canada, les services de géographie responsables du processus de géocodage peuvent fournir une valeur de score de confiance comprise entre 0 et 1 pour chaque unité afin d’indiquer la confiance du codage de la région géographique détaillée. Un score de confiance de 1 indique que l’information sur l’adresse permet de déterminer avec exactitude la région géographique détaillée, alors qu’un score de confiance de 0 indique que l’attribution de la région géographique détaillée a échoué (non codée). Une valeur comprise entre 0 et 1 implique qu’une région géographique détaillée a été attribuée avec moins ou plus d’exactitude. Le score de confiance moyen du géocodage est la moyenne des scores de confiance du géocodage pour toutes les unités incluses dans le domaine. Plus le score de confiance moyen du géocodage est élevé, plus la qualité des données géocodées sera élevée.

c. Couplage d’enregistrements

Un processus de couplage peut être effectué pour coupler l’information provenant de différentes sources de données administratives afin de fournir un ensemble de données plus complet. La qualité du processus de couplage et la capacité de coupler correctement les enregistrements ont une incidence directe sur la qualité des variables dérivées. Deux taux d’erreur de couplage : le taux de fausses découvertes (TFD) et le taux de faux négatifs (TFN), des indicateurs de qualité indépendants l’un de l’autre, sont présentés ici pour montrer la qualité du processus de couplage. Le taux de fausses découvertes du domaine est le nombre de liens incorrectement acceptés divisé par le nombre total de liens acceptés associés à des unités du domaine. Le taux de faux négatifs du domaine est le nombre de vrais liens qui sont rejetés divisé par le nombre total de vrais liens associés aux unités du domaine. Il est possible d’estimer ces deux taux d’erreur en procédant à une vérification manuelle du couplage à partir d’un échantillon d’unités couplées et non couplées. Ces taux d’erreur varient inversement en fonction de la qualité : plus les taux d’erreur de couplage sont faibles, plus la qualité des variables dérivées sera élevée.

Les taux d’erreur de couplage peuvent également être présentés en utilisant les compléments du taux de fausses découvertes, représenté par la précision (1-TFD), et du taux de faux négatif, représenté par le rappel (1-TFN).

d. Estimation des variables quantitatives

Au cours du processus d’estimation, les estimations sont produites en calculant différentes statistiques (totaux, moyennes, médianes, etc.) de variables quantitatives pour toutes les unités d’un domaine donné. Les valeurs des variables peuvent être déclarées (disponibles à partir d’une source administrative), imputées (une valeur est attribuée par une stratégie d’imputation), manquantes (aucune information n’est disponible à partir de la source administrative, et aucune imputation n’est effectuée) ou sans objet. Deux indicateurs de qualité sont proposés pour évaluer la qualité des estimations en fonction de la disponibilité et de la source d’information, le taux d’inclusion et le taux de déclaration, définis comme suit :

Taux d’inclusion : Pour un domaine donné, le taux d’inclusion est défini comme le pourcentage d’unités du domaine déclarées et imputées parmi les unités qui contribuent (déclarées, imputées ou manquantes) au calcul de l’estimation. Plus le taux d’inclusion est élevé, plus la couverture de l’estimation est élevée.

Taux de déclaration : Pour un domaine donné, le taux de déclaration est défini comme le pourcentage d’unités du domaine ayant des valeurs déclarées parmi les unités qui contribuent (déclarées et imputées) au calcul de l’estimation. Plus le taux de déclaration est élevé, plus la qualité de l’estimation le sera.

2. L’indicateur composite de qualité

Le but de l’approche ICQ est d’assigner un indicateur du niveau de qualité lié à l’exactitude pour chaque estimation, qui pourra par la suite être présenté à côté des estimations dans un tableau en utilisant les cotes allant de A à F. L’ICQ est calculé en combinant les indicateurs de qualité (IQ) individuels liés aux variables de domaine et aux variables d’intérêt qui ont été utilisées pour créer l’estimation du domaine. La cote de l’ICQ est relative, en ce sens qu’une cote de A pour l’ICQ indique que l’estimation a le plus haut niveau d’exactitude par rapport aux estimations pour la même variable d’intérêt dans les autres domaines. Une cote de A est généralement attribuée lorsque chaque IQ applicable a une valeur très élevée. Une cote pour l’ICQ de B, C, D, E ou F reflète des niveaux d’exactitude inférieurs par rapport aux autres domaines pour certains des IQ applicables, F représentant le niveau d’exactitude relatif le plus faible.

La combinaison des IQ se fait par une méthode de partitionnement. Il s’agit d’une technique d’apprentissage automatique non supervisée qui regroupe des observations, ici, les domaines, qui sont semblables entre elles et qui ne ressemblent pas aux observations attribuées à d’autres groupes. La dissemblance est fondée sur une mesure de distance calculée à partir de variables de partitionnement, ici, les IQ applicables. L’algorithme à K moyennes est l’algorithme de partitionnement choisi.

Les algorithmes fondés sur les mesures de distance, comme le partitionnement, sont sensibles à l’échelle. Les variables ayant une variance plus grande ont plus d’incidence sur la création des groupes, sauf si toutes les variables sont standardisées avant le partitionnement. Dans l’application du partitionnement visant à créer l’ICQ, certains IQ devraient avoir plus d’incidence parce qu’ils sont liés aux variables les plus fortement associées aux estimations du domaine. Pour contrôler l’importance relative des IQ dans l’analyse, chaque IQ est standardisé, puis multiplié par un poids. Les IQ multipliés par les poids les plus élevés auront la variance la plus importante une fois pondérés et, par conséquent, la plus grande incidence sur la création des groupes. Comme les poids sont déterminés en fonction de la nature de l’estimation (le type d’estimation ou la variable d’intérêt), il peut être nécessaire d’établir différentes séries de poids pour différentes estimations dans le même tableau. Par exemple, les poids attribués aux IQ de variables de domaine pourraient être d’une importance égale dans la production de l’ICQ pour l’estimation d’un compte d’unités administratives dans le domaine, tandis que les poids attribués aux mêmes IQ pourraient être proportionnels à la force de la relation entre ces variables de domaine et la variable d’intérêt dans le cas d’une estimation d’une moyenne ou médiane.

Le partitionnement crée des groupes non ordonnés. Pour déterminer quel groupe représente le plus haut niveau d’exactitude, les groupes sont classés selon un score global calculé pour chaque groupe. Le score global est la moyenne par groupe de la moyenne pondérée des IQ dans chaque domaine. Le groupe ayant le score global le plus élevé se voit initialement attribuer la valeur A, le groupe ayant le deuxième score global le plus élevé se voit initialement attribuer la valeur B, et ainsi de suite. Les visualisations des profils de groupes servent à mieux comprendre la composition de chaque groupe, à confirmer la cote attribuée automatiquement au groupe ou à attribuer une cote différente au groupe, comme nous le verrons à la section suivante. 

Des exemples du calcul des poids et de la visualisation des données sont présentés à l’annexe pour certains tableaux du PSLC publiés en septembre 2021, qui incluaient les cotes de l’ICQ pour la première fois.

3. Interprétation de l’indicateur composite de qualité

Les cotes de l’ICQ sont associées aux étiquettes standard de qualité utilisées à Statistique Canada pour les enquêtes-échantillons, telles que définies dans le tableau ci-dessous.


Tableau 1
Étiquettes standard de qualité utilisées par Statistique Canada
Sommaire du tableau
Le tableau montre les résultats de Étiquettes standard de qualité utilisées par Statistique Canada. Les données sont présentées selon Cote (titres de rangée) et Étiquette(figurant comme en-tête de colonne).
Cote Étiquette
A Excellent
B Très bon
C Bon
D Acceptable
E Utiliser avec prudence
F Trop peu fiable pour être publié

Malgré l’utilisation des mêmes étiquettes standard de qualité, il y a des différences majeures dans la manière dont les cotes de l’ICQ sont créées par rapport aux enquêtes-échantillons. Les utilisateurs doivent être conscients de ces différences pour interpréter correctement les étiquettes de l’ICQ.

En règle générale, les enquêtes-échantillons utilisent les cotes A à F pour indiquer l’ampleur de la variance d’échantillonnage des estimations, qui est généralement mesurée par le coefficient de variation (CV). Le CV est le rapport entre l’erreur-type de l’estimation et la valeur moyenne de l’estimation elle-même pour tous les échantillons possibles. Il est généralement exprimé en pourcentage, et plus le CV est faible, plus l’estimation est précise. La plage de valeurs possibles du CV est divisée en intervalles et l’on attribue à chaque intervalle une cote. Bien que des intervalles différents puissent être utilisés pour attribuer le niveau d’exactitude d’une enquête à l’autre, il est simple de comparer l’exactitude des estimations dans la même enquête-échantillon. En outre, le CV peut être utilisé à la fois comme indicateur de la précision des estimations et pour faire des inférences, c’est-à-dire pour tirer des conclusions d’une différence statistiquement significative entre les estimations.

L’ICQ est très différent, car il n’est pas lié à l’estimation de la variance. L’objectif est d’aider les utilisateurs à évaluer l’adéquation à l’utilisation des estimations par rapport à leurs propres besoins. Il ne peut pas être utilisé pour faire des inférences statistiques. L’utilisation de l’algorithme de partitionnement a également des répercussions importantes qui influent sur la comparabilité des cotes de l’ICQ résultant entre les différents tableaux et entre les estimations de différents types ou de variables d’intérêt différentes.

Tout d’abord, le modèle de partitionnement produit des valeurs d’ICQ qui sont relatives et non absolues. L’exactitude d’une estimation n’est pas évaluée en fonction de normes prédéfinies, mais en fonction de l’exactitude des estimations dans les autres domaines. Il serait difficile d’établir des normes prédéfinies qui seraient cohérentes, et également pertinentes dans tous les contextes, puisque le choix des IQ applicables est fondé sur des processus propres à un programme statistique particulier, et le calcul du poids à appliquer à chaque IQ est spécifique à chaque tableau et à chaque variable d’intérêt. Bien que le partitionnement donne des résultats relatifs, quoique basés sur des données, c’est la manière la plus objective de créer des groupes fondés sur les divers IQ sans utiliser de règles arbitraires.

Afin d’atténuer le risque d’attribuer des valeurs et des étiquettes incohérentes comme cote finale de l’ICQ pour un groupe, par exemple en attribuant un A au meilleur groupe malgré un niveau d’exactitude moyen sous-optimal dans le groupe, il est essentiel d’établir le profil des groupes pour confirmer la cote attribuée automatiquement ou pour attribuer une cote plus appropriée. À partir de la visualisation des données sur les distributions de fréquence des IQ dans chaque groupe, on pourrait décider d’attribuer une cote inférieure à A au meilleur groupe. Le même principe s’applique également aux autres groupes. Si le profil du deuxième meilleur groupe indique un niveau d’exactitude global qui n’est pas jugé suffisant pour être qualifié de « Très bon », on pourrait attribuer à ce groupe une cote inférieure à B. Il faut parvenir à un consensus avec les experts en la matière avant d’attribuer les cotes finales de l’ICQ, tout en tenant compte des étiquettes standard correspondantes.

Ensuite, le modèle de partitionnement rassemble des domaines qui ont des valeurs d’IQ similaires en tenant compte simultanément de tous les IQ applicables. Cette approche rend l’interprétation plus significative. Étant donné que tous les domaines rassemblés dans un groupe présentent des patrons similaires, il est possible de fournir une description informative des IQ pour chaque cote de l’ICQ. Par exemple, il est possible d’expliquer que, pour une variable d’intérêt donnée, l’exactitude des estimations dans les domaines auxquels on a attribué un C est jugée bonne, parce qu’un IQ indique un niveau d’exactitude inférieur pour une étape de traitement donnée, tandis que les autres IQ indiquent un niveau d’exactitude excellent pour toutes les autres étapes de traitement évaluées. Ce genre de raisonnement, fourni avec les cotes de l’ICQ et les étiquettes standard, simplifie l’interprétation pour les utilisateurs de données.

Enfin, il est recommandé d’utiliser les cotes de l’ICQ pour comparer l’exactitude de la même variable d’intérêt et du même type d’estimation entre les domaines, mais de ne pas comparer l’exactitude entre les différentes variables d’intérêt ou types d’estimation dans le même domaine.

4. Limites de l’approche de l’indicateur composite de qualité

La combinaison d’un ensemble d’IQ à l’aide du partitionnement présente de nombreux avantages. Il s’agit d’une façon simple et rapide de résumer un grand nombre d’IQ en une cote de qualité catégorique tout en permettant de considérer l’importance relative de chaque IQ à la qualité globale des estimations. Cela aide à obtenir une interprétation des valeurs de l’ICQ qui est significative, ce qui aidera également les utilisateurs de données à évaluer l’adéquation des données pour les utilisations prévues.

La principale limite à l’ICQ est la nature des IQ applicables utilisés dans le modèle de partitionnement. Dans le contexte d’une première mise en œuvre expérimentale de l’ICQ, l’élaboration d’un ensemble d’IQ facilement disponibles pourrait consister à définir des taux simples à différentes étapes de traitement qui indiquent seulement le nombre d’unités administratives pour lesquelles chaque étape a été complétée, et non le niveau de qualité selon lequel l’étape a été réalisée. Un bon exemple est le taux de codage. Dans une version améliorée de l’ICQ, l’objectif est d’avoir des IQ qui mesurent mieux la qualité de chaque étape de traitement et les données d’entrée à l’étape de traitement. Par exemple, un indicateur de la qualité du codage et de la manière dont les données reflètent avec exactitude la réalité serait plus représentatif de la qualité qu’un taux de codage.

Une autre limite de l’ICQ est liée au niveau auquel les IQ applicables sont disponibles. Un exemple est lorsque le niveau géographique d’un IQ est plus élevé (plus agrégé) que le niveau auquel les estimations sont diffusées. Pour que les cotes de l’ICQ reflètent mieux la qualité des estimations diffusées, il est recommandé de définir les IQ au même niveau que les estimations, ou de compléter avec d’autres IQ applicables disponibles au niveau approprié. Il s’agit d’un autre aspect à prendre en compte dans une version améliorée de l’ICQ

Conclusion

Pour les produits d’information provenant seulement de sources de données administratives, les mesures traditionnelles d’exactitude comme le CV et les marges d’erreur ne sont pas facilement applicables ou calculables. L’approche de l’ICQ qui a été élaborée et présentée dans le présent article a été intégrée pour la première fois dans un produit de Statistique Canada à l’automne 2021. Le but de cette mesure de qualité est de communiquer aux utilisateurs de données des renseignements sur l’exactitude des estimations en tenant compte de la qualité des données administratives aux différentes étapes de traitement (p. ex. couplage, codage) et des taux de déclaration. En outre, l’utilisation de poids et d’algorithmes de partitionnement dans le développement de l’ICQ s’est révélée être une approche simple et efficace pour résumer la grande quantité d’indicateurs nécessaires dans le contexte des tableaux multidimensionnels. Dans la mesure où des IQ pertinents sont définis et produits en même temps que les estimations, l’approche pourrait également être mise en œuvre dans d’autres programmes statistiques fondés exclusivement sur des données administratives.

Annexe A

La présente annexe explique comment la méthode présentée dans l’article a été élaborée et mise en œuvre pour la première fois dans le contexte des tableaux du Programme de la statistique du logement canadien (PSLC), diffusés le 17 septembre 2021.

A1. Présentation des tableaux utilisés pour concevoir l’indicateur composite de qualité

Les trois tableaux de données du PSLC qui suivent ont été mis à jour avec de nouvelles données pour l’année de référence 2020 pour l’Ontario, la Colombie-Britannique, la Nouvelle-Écosse et le Nouveau-Brunswick :

Par souci de simplicité, ces tableaux seront appelés respectivement tableaux 27, 53 et 54.

Tous les tableaux sont composés des trois variables de domaine : géographie, type de propriété et période de construction. Quatre autres variables de domaine sont incluses dans au moins un des trois tableaux : type de propriétaire (tableau 53), usage de la propriété (tableaux 53 et 54), résidence de la propriété (tableau 54) et participation à la résidence (tableau 27). Les variables d’intérêt varient selon les différents tableaux, mais comprennent le nombre et le pourcentage de propriétés, la moyenne et la médiane de la valeur de l’évaluation foncière, la superficie habitable totale et la valeur de l’évaluation foncière au pied carré. Une description des concepts et des variables du PSLC peut être consultée dans la documentation existanteNote .

A2. Sélection d’indicateurs de qualité

Les taux de géocodage et les scores de confiance moyens du géocodage ont été utilisés pour décrire l’exactitude de la variable de domaine géographie, qui comprend les catégories : province, région métropolitaine de recensement (RMR), agglomération de recensement (AR)Note  et subdivision de recensement (SDR). Étant donné que les sources de données du PSLC sont fondées sur les registres provinciaux et territoriaux, la province est toujours connue, de sorte que les deux indicateurs de qualité (IQ) sont fixés à 100 % pour toutes les estimations provinciales.

L’exactitude liée aux variables de domaines type de propriétaire, période de construction et type de propriété a été décrite à l’aide des taux de codage. Toutefois, comme les taux de codage pour le type de propriétaire et le type de propriété étaient toujours égaux à 100 %, ils n’ont pas été utilisés dans les modèles de partitionnement. Pour faire partie des critères de qualité discriminants à prendre en compte dans un modèle de partitionnement, les IQ doivent avoir une variance non nulle.

Les variables de domaine usage de la propriété, propriétaire de la résidence et participation à la résidence sont créées à l’aide de données couplées entre deux sources de données ou plus. Pour cette raison, leur exactitude a été décrite en utilisant les compléments des taux d’erreur de couplage : la précision (1-TFD [taux de fausses découvertes]) et le rappel (1-TFN [taux de faux négatif]). Ces IQ sont préférables aux taux d’erreur de couplage estimés, parce que tous les IQ sélectionnés devraient idéalement varier dans la même direction : plus la valeur est élevée, plus l’exactitude est grande.

Enfin, les taux de déclaration ont été utilisés pour les variables d’intérêt continues de la valeur de l’évaluation foncière et de la superficie habitable totale. L’exactitude de la superficie habitable totale a également été décrite à l’aide d’un taux d’inclusion pour indiquer la proportion de propriétés considérées pour le calcul de l’estimation dans un domaine donné. L’exactitude de la valeur de l’évaluation foncière par pied carré a été décrite à l’aide des taux de déclaration de la valeur de l’évaluation foncière et de la superficie habitable totale et du taux d’inclusion de la superficie habitable totale, parce que la valeur de l’évaluation foncière par pied carré est le ratio de la valeur de l’évaluation foncière et de la superficie habitable totale.

Le tableau A2-1 résume les variables utilisées dans la conception des tableaux 27, 53 et 54, ainsi que certains IQ pertinents pour chaque variable.


Tableau A2-1
Indicateurs de qualité individuels liés aux variables présentes dans les tableaux diffusés
Sommaire du tableau
Le tableau montre les résultats de Indicateurs de qualité individuels liés aux variables présentes dans les tableaux diffusés. Les données sont présentées selon Variables (titres de rangée) et Indicateurs de qualité individuels(figurant comme en-tête de colonne).
Variables Indicateurs de qualité individuels
Valeur de l’évaluation foncière Taux de déclaration
Valeur de l’évaluation foncière par pied carré Taux de déclaration, taux d’inclusion
Géographie Taux de géocodage, score de confiance moyen du géocodage
Type de propriétaire Taux de codage
Période de construction Taux de codage
Type de propriété Taux de codage
Usage de la propriété Précision, rappel
Résidence de la propriété Précision, rappel
Participation à la résidence Précision, rappel
Superficie habitable totale Taux de déclaration, taux d’inclusion

A3. Pondération pour les comptes et les pourcentages

Les tableaux 27, 53 et 54 présentent le compte et le pourcentage de propriétés dans chaque domaine. Dans le tableau 53, les pourcentages de propriétés sont disponibles par usage de la propriété et type de propriétaire, tandis que dans le tableau 54, ils sont disponibles par usage de la propriété et résidence de la propriété. Pour les estimations du compte et du pourcentage, les poids sont calculés en deux étapes. Tout d’abord, des poids égaux sont attribués aux variables en cause dans le calcul des estimations. Ensuite, le poids d’une variable est transféré aux IQ correspondants en le divisant également entre les IQ lorsqu’il y a plus d’un IQ lié à la variable. Un exemple est illustré à la figure A3-1 pour le tableau 27.

Figure A3-1. Exemple de pondération pour les estimations des comptes et des pourcentages pour le tableau 27

Description de la figure A3-1

Cette figure est un schéma hiérarchique qui illustre la façon dont le poids est réparti entre les IQ.


Tableau de données pour la figure A3-1
Sommaire du tableau
Le tableau montre les résultats de Tableau de données pour la figure A3-1. Les données sont présentées selon Variable (titres de rangée) et Poids de la variable, Indicateur de qualité et Poids de l'indicateur de qualité(figurant comme en-tête de colonne).
Variable Poids de la variable Indicateur de qualité Poids de l'indicateur de qualité
Géographie 0,33 Taux de géocodage 0,17
Score de confiance moyen du géocodage 0,17
Période de construction 0,33 Taux de codage 0,33
Participation à la résidence 0,33 Précision 0,17
Rappel 0,17

L’évaluation de l’exactitude du compte estimé de propriétés dans le tableau 27 est liée à la qualité des quatre variables de domaine : géographie, période de construction, type de propriété et participation à la résidence. Étant donné que l’IQ disponible pour le type de propriété était toujours égal à 100 %, il n’a pas pu être utilisé dans le partitionnement. Par conséquent, un poids de 0,33 a été attribué à la géographie, à la période de construction et à la participation à la résidence. Deux IQ sont utilisés pour la géographie, de sorte qu’un poids de 0,17 a été attribué à la fois au taux de géocodage et au score de confiance moyen du géocodage. La qualité de la période de construction est décrite par un seul IQ, de sorte que l’on a attribué au taux de codage un poids de 0,33. Un poids de 0,17 a été attribué à la fois à la précision et au rappel parce qu’il s’agit des IQ liés à la participation à la résidence. Le tableau A3-1 présente les poids attribués à chaque IQ par tableau diffusé.


Tableau A3-1
Poids attribués aux indicateurs de qualité par tableau pour l’évaluation de la qualité des comptes et des pourcentages estimés
Sommaire du tableau
Le tableau montre les résultats de Poids attribués aux indicateurs de qualité par tableau pour l’évaluation de la qualité des comptes et des pourcentages estimés. Les données sont présentées selon Variable (titres de rangée) et Indicateur de qualité, Tableau 27, Tableau 53 et Tableau 54(figurant comme en-tête de colonne).
Variable Indicateur de qualité Tableau 27 Tableau 53 Tableau 54
Géographie Taux de géocodage 0,17 0,17 0,13
Score de confiance moyen du géocodage 0,17 0,17 0,13
Type de propriétaire Taux de codage (A) (B) (A)
Période de construction Taux de codage 0,33 0,33 0,25
Type de propriété Taux de codage (B) (B) (B)
Usage de la propriété Précision (A) 0,17 0,13
Rappel (A) 0,17 0,13
Résidence de la propriété Précision (A) (A) 0,13
Rappel (A) (A) 0,13
Participation à la résidence Précision 0,17 (A) (A)
Rappel 0,17 (A) (A)

A4. Pondération pour la moyenne et la médiane des variables continues

Le tableau 27 présente les estimations d’une variable d’intérêt continue : valeur de l’évaluation foncière. Les tableaux 53 et 54 présentent des estimations pour trois variables d’intérêt continues : valeur de l’évaluation foncière, superficie habitable totale et rapport entre ces deux variables, appelé valeur de l’évaluation foncière par pied carré. Pour les variables d’intérêt continues, les poids ont été attribués proportionnellement à la force des relations entre les variables de domaine et les variables d’intérêt. Pour chaque variable, cette mesure a été effectuée à l’aide de modèles d’analyse de variance (ANOVA), qui effectuent le calcul de la proportion de la variance totale expliquée par chaque variable de domaine, appelée taille de l’effet. Dans chaque modèle, la variable réponse (Y) correspond à la variable d’intérêt, tandis que les effets (X) sont les variables de domaine. La variable géographique utilisée pour l’analyse est la SDR parce qu’elle est le niveau géographique le plus détaillé. Les RMR et les AR regroupent généralement une ou plusieurs SDR, tandis que les provinces incluent plusieurs RMR, les AR et la catégorie « À l’extérieur des RMR ou des AR ». La modélisation est effectuée au niveau de la propriété. Les résultats sont présentés au tableau A4-1.


Tableau A4-1
Résultats de l'analyse de la variance pour la valeur de l’évaluation foncière, la superficie habitable totale et la valeur de l’évaluation foncière par pied carré
Sommaire du tableau
Le tableau montre les résultats de Résultats de l'analyse de la variance pour la valeur de l’évaluation foncière. Les données sont présentées selon Effet (titres de rangée) et Taille de l’effet sur la variable continue, Valeur de l’évaluation foncière, Superficie habitable totale et Valeur de l’évaluation foncière par pied carré, calculées selon pourcentage unités de mesure (figurant comme en-tête de colonne).
Effet Taille de l’effet sur la variable continue
Valeur de l’évaluation foncière Superficie habitable totale Valeur de l’évaluation foncière par pied carré
pourcentage
Géographie : Subdivision de recensement 26,1 9,9 26,7
Type de propriétaire 0,2 0,2 0,0
Période de construction 1,1 5,7 0,9
Type de propriété 7,2 24,4 0,2
Usage de la propriété 0,0 0,4 0,1
Participation à la résidence 0,0 0,0 0,0
Résidence de la propriété 0,0 0,0 0,0
Résiduel 65,3 59,4 72,0

Les résultats du tableau A4-1 montrent que, parmi toutes les variables de domaine incluses dans les tableaux 27, 53 ou 54, la géographie (26,1 %) est celle qui a le plus d’effet sur la valeur de l’évaluation foncière, suivie du type de propriété (7,2 %). Pour la superficie habitable totale, le type de propriété a l’effet le plus important (24,4 %), suivi de la géographie (9,9 %) et de la période de construction (5,7 %). La géographie (26,7 %) a aussi l’effet le plus important sur la valeur de l’évaluation foncière par pied carré. Les autres variables de domaine représentent moins de 1 % de la variance des trois variables d’intérêt.

La dernière ligne, Résiduel, indique la proportion de variance inexpliquée par le modèle. Les variables des tableaux 27, 53 et 54 expliquent entre 28 % et 41 % seulement de la variance totale, ce qui signifie que les tailles de l’effet peuvent être biaisées en raison de variables omises. Des variables omises peuvent exister dans les bases de données du PSLC ou elles peuvent ne pas être disponibles. On n’a pas tenu compte du résiduel parce que l’objectif principal du calcul des poids était d’utiliser des modèles qui reflètent la création des tableaux 27, 53 et 54.

D’après les résultats des modèles d’ANOVA, les poids ont été calculés comme suit :

  1. Des poids égaux ont été attribués aux variables de domaine participant au calcul des estimations, à l’exclusion des variables de domaine pour lesquelles un IQ discriminatoire n’était pas disponible.
  2. Pour les variables d’intérêt, le poids attribué à une variable a été divisé à parts égales entre les IQ liés à la variable.
  3. Pour les variables de domaine, la somme des poids des variables de domaine est multipliée par le rapport entre la taille de l’effet d’une variable de domaine donnée et la somme des tailles de l’effet de toutes les variables de domaine incluses dans le tableau de diffusion, à l’exclusion des variables pour lesquelles un IQ n’était pas disponible ou n’a pas pu être utilisé dans le modèle d’indicateur composite de qualité (ICQ). La taille de l’effet de la SDR a été utilisée pour calculer le poids de la géographie.
  4. Le poids attribué à chaque variable a été divisé également entre les IQ liés à la variable.

Un exemple est illustré à la figure A4-1 pour le tableau 27.

Figure A4-1 : Exemple de pondération des estimations du total et de la tendance centrale de la valeur de l’évaluation foncière au tableau 27

Description de la figure A4-1

Cette figure est un schéma hiérarchique qui illustre la façon dont le poids est réparti entre les IQ.


Tableau de données pour la figure A4-1
Sommaire du tableau
Le tableau montre les résultats de Tableau de données pour la figure A4-1. Les données sont présentées selon Variable (titres de rangée) et Poids de la variable, Indicateur de qualité et Poids de l'indicateur de qualité(figurant comme en-tête de colonne).
Variable Poids de la variable Indicateur de qualité Poids de l'indicateur de qualité
Géographie 0,75 x 0,96 = 0,72 Taux de géocodage 0,72 x 0,5 = 0,36
Score de confiance moyen du géocodage 0,72 x 0,5 = 0,36
Période de construction 0,75 x 0,04 = 0,03 Taux de codage 0,03
Participation à la résidence 0,75 x 0,00 = 0,00 Précision 0,00
Rappel 0,00
Valeur de l'évaluation foncière 0,25 Taux de déclaration de la valeur de l'évaluation foncière 0,25

Le tableau 27 présente cinq variables en cause dans le calcul de la moyenne de la valeur de l’évaluation foncière : valeur de l’évaluation foncière, géographie, période de construction, type de propriété et participation à la résidence.

  1. Dans la première étape, comme aucun IQ ne pouvait être utilisé pour le type de propriété, un poids de 0,25 a été attribué à chacune des quatre autres variables.
  2. Dans la deuxième étape, comme le taux de déclaration était le seul IQ pour la valeur de l’évaluation foncière, une pondération de 0,25 a été attribuée à son taux de déclaration.
  3. Dans la troisième étape, la somme des poids des variables de domaine était de 0,75. La somme des tailles de l’effet de toutes les variables de domaine incluses dans le tableau 27 était de 27,2 % (d’après le tableau A4-1 : 26,1 % + 1,1 % + 0,0 %). Le ratio entre la taille de l’effet pour la géographie et la somme des tailles de l’effet était de 0,96 (26,1 % / 27,2 %). Le ratio entre la taille de l’effet pour la période de construction et la somme des tailles de l’effet était de 0,04 (1,1 % / 27,2 %). Le ratio pour la participation à la résidence était de 0. Chacun de ces ratios a été multiplié par 0,75, comme le montre la figure A4-1.
  4. Au cours de la quatrième étape, le poids attribué à la géographie a été divisé en deux entre le taux de géocodage et le score de confiance moyen du géocodage.

Le tableau A4-2 présente les poids utilisés pour chaque variable continue par tableau diffusé.


Tableau A4-2
Poids attribués aux indicateurs de qualité par tableau diffusé pour l’évaluation de la qualité des totaux, des moyennes et des médianes estimés des variables d’intérêt continues
Sommaire du tableau
Le tableau montre les résultats de Poids attribués aux indicateurs de qualité par tableau diffusé pour l’évaluation de la qualité des totaux. Les données sont présentées selon Variable (titres de rangée) et Indicateur de qualité, Tableau 27, Tableau 53 et Tableau 54(figurant comme en-tête de colonne).
Variable Indicateur de qualité Tableau 27 Tableau 53 Tableau 54
VEF VEF SHT VEFPC VEF SHT VEFPC
Valeur de l'évaluation foncière Taux de déclaration 0,25 0,25 (A) 0,20 0,20 (A) 0,17
Géographie Taux de géocodage 0,36 0,36 0,23 0,29 0,38 0,25 0,32
Score de confiance moyen du géocodage 0,36 0,36 0,23 0,29 0,38 0,25 0,32
Type de propriétaire Taux de codage (A) (B) (B) (B) (A) (A) (A)
Période de construction Taux de codage 0,03 0,03 0,27 0,02 0,03 0,28 0,02
Type de propriété Taux de codage (B) (B) (B) (B) (B) (B) (B)
Usage de la propriété Précision (A) 0,00 0,01 0,00 0,00 0,01 0,00
Rappel (A) 0,00 0,01 0,00 0,00 0,01 0,00
Résidence de la propriété Précision (A) (A) (A) (A) 0,00 0,01 0,00
Rappel (A) (A) (A) (A) 0,00 0,01 0,00
Participation à la résidence Précision 0,00 (A) (A) (A) (A) (A) (A)
Rappel 0,00 (A) (A) (A) (A) (A) (A)
Superficie habitable totale Taux d'inclusion (A) (A) 0,13 0,10 (A) 0,10 0,08
Taux de déclaration (A) (A) 0,13 0,10 (A) 0,10 0,08

A5. Partitionnement, ordre et profils des groupes

Les IQ ont été standardisés pour éliminer l’effet d’échelle, puis pondérés avant d’effectuer le partitionnement des moyennes K. Le nombre optimal de groupes a été sélectionné à l’aide du graphique de l’approximation du R carré global attendu pour les valeurs du nombre de groupes (K) entre 2 et 9. Étant donné que les groupes n’étaient pas ordonnés, on a déterminé un ordre préliminaire en triant les groupes dans l’ordre décroissant d’un score global de qualité calculé pour chaque groupe. Le score global de chaque groupe k est défini de la façon suivante :

Score k =   i = 1 M 𝕝 i k      IQ ¯ i   i = 1 M 𝕝 i k     MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaaeaaaaaaaaa8 qacaqGtbGaae4yaiaab+gacaqGYbGaaeyza8aadaWgaaWcbaWdbiaa dUgaa8aabeaak8qacqGH9aqpcaqGGcWaaSaaa8aabaWdbmaavadabe Wcpaqaa8qacaWGPbGaeyypa0JaaGymaaWdaeaapeGaamytaaqdpaqa a8qacqGHris5aaGccqWI9=VBpaWaaSbaaSqaa8qacaWGPbGaam4Aai aabckaa8aabeaak8qacaqGGcGaaeiOa8aadaqdaaqaa8qacaqGrbGa aeysaaaapaWaaSbaaSqaa8qacaWGPbaapaqabaGcpeGaaeiOaaWdae aapeWaaubmaeqal8aabaWdbiaadMgacqGH9aqpcaaIXaaapaqaa8qa caWGnbaan8aabaWdbiabggHiLdaakiabl2==U9aadaWgaaWcbaWdbi aadMgacaWGRbGaaiiOaaWdaeqaaOWdbiaabckaaaaaaa@5EFE@

où M est le nombre total de domaines, 𝕝 i k   MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaaeaaaaaaaaa8 qacqWI9=VBpaWaaSbaaSqaa8qacaWGPbGaam4Aaiaabckaa8aabeaa aaa@3C6D@ est la fonction indicatrice qui prend la valeur 1 si le domaine i est inclus dans le groupe k, 0 sinon, et IQ ¯ i MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaa0aaaeaaqa aaaaaaaaWdbiaabgfacaqGjbaaa8aadaWgaaWcbaWdbiaadMgaa8aa beaaaaa@3910@ est la moyenne pondérée des indicateurs de qualité dans le domaine i :

IQ ¯ i =   j = 1 J w j I Q i j MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaa0aaaeaaqa aaaaaaaaWdbiaabgfacaqGjbaaa8aadaWgaaWcbaWdbiaadMgaa8aa beaak8qacqGH9aqpcaqGGcWaaybCaeqal8aabaWdbiaabQgacqGH9a qpcaaIXaaapaqaa8qacaqGkbaan8aabaWdbiabggHiLdaakiaadEha paWaaSbaaSqaa8qacaWGQbaapaqabaGcpeGaamyuaiaadMeapaWaaS baaSqaa8qacaWGPbGaamOAaaWdaeqaaaaa@47B9@

où J est le nombre d’indicateurs de qualité utilisés dans le modèle de l’ICQ, IQ ij MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaaeaaaaaaaaa8 qacaqGrbGaaeysa8aadaWgaaWcbaWdbiaabMgacaqGQbaapaqabaaa aa@39EA@ est la valeur de l’indicateur de qualité j pour le domaine i, et w j MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaaeaaaaaaaaa8 qacaWG3bWdamaaBaaaleaapeGaamOAaaWdaeqaaaaa@385C@ est le poids de l’indicateur de qualité j.

Des visualisations de données ont été utilisées pour étudier le profil des groupes. La distribution de fréquences relatives de chaque IQ a été représentée graphiquement dans une grille pour chaque groupe. Un exemple est illustré à la figure A5-1 pour la valeur de l’évaluation foncière par pied carré du tableau 53. La précision et le rappel ont été retirés de la visualisation des données afin d’améliorer la lisibilité.

Figure A5-1 : Exemple de visualisation des profils des groupes

Description de la figure A5-1

La figure est une grille. Dans chaque cellule, un graphique à barres montre la distribution de fréquences relatives d’un IQ (colonne) pour un groupe (rangée).


Tableau de données pour la figure A5-1
Sommaire du tableau
Le tableau montre les résultats de Tableau de données pour la figure A5-1. Les données sont présentées selon Intervalle des valeurs d'indicateur de qualité en pourcentage (%) (titres de rangée) et Fréquence relative par intervalle - Groupe A, Fréquence relative par intervalle - Groupe B et Fréquence relative par intervalle - Groupe C, calculées selon pourcentage unités de mesure (figurant comme en-tête de colonne).
Intervalle des valeurs d'indicateur de qualité en pourcentage (%) Fréquence relative par intervalle - Groupe A Fréquence relative par intervalle - Groupe B Fréquence relative par intervalle - Groupe C
pourcentage
1. Score de confiance moyen du géocodage
[0,10] 0,0 1,8 41,8
[10,20] 0,0 0,4 4,6
[20,30] 0,0 0,5 3,3
[30,40] 0,0 0,5 8,8
[40,50] 0,0 1,8 35,2
[50,60] 0,0 2,4 0,9
[60,70] 0,0 17,2 0,0
[70,80] 0,0 37,2 3,1
[80,90] 3,3 38,2 1,3
[90,100] 96,7 0,0 1,1
2. Taux de géocodage
[0,10] 0,0 0,0 57,6
[10,20] 0,0 0,0 4,8
[20,30] 0,0 0,0 1,3
[30,40] 0,0 0,0 11,0
[40,50] 0,0 0,1 25,1
[50,60] 0,0 0,3 0,2
[60,70] 0,0 0,8 0,0
[70,80] 0,0 1,3 0,0
[80,90] 0,1 2,1 0,0
[90,100] 99,8 95,4 0,0
3. Taux de codage de la période de construction
[0,10] 0,4 1,8 7,9
[10,20] 0,1 0,3 0,9
[20,30] 0,2 0,4 3,5
[30,40] 0,3 0,7 4,2
[40,50] 0,6 1,7 9,0
[50,60] 0,6 0,8 1,3
[60,70] 0,9 1,0 3,7
[70,80] 1,4 1,6 3,5
[80,90] 2,6 2,7 1,8
[90,100] 93,0 89,0 64,2
4. Taux de déclaration de la valeur de l'évaluation foncière
[0,10] 2,2 4,4 11,4
[10,20] 0,9 0,4 0,9
[20,30] 0,6 0,5 0,0
[30,40] 0,4 0,8 1,5
[40,50] 0,5 2,3 9,2
[50,60] 0,2 0,6 0,0
[60,70] 0,5 1,8 0,4
[70,80] 1,2 3,8 0,4
[80,90] 3,5 6,0 0,7
[90,100] 90,0 79,5 75,4
5. Taux de déclaration de la superficie habitable totale
[0,10] 0,8 3,6 9,7
[10,20] 0,1 0,3 0,9
[20,30] 0,1 0,3 3,5
[30,40] 0,2 0,4 3,1
[40,50] 0,4 1,4 6,6
[50,60] 0,2 0,4 1,5
[60,70] 0,5 1,0 4,2
[70,80] 1,0 2,0 0,9
[80,90] 1,9 3,4 1,5
[90,100] 94,8 87,2 68,1
6. Taux d'inclusion de la superficie habitable totale
[0,10] 0,0 0,0 0,0
[10,20] 0,1 0,1 0,4
[20,30] 0,2 0,3 0,0
[30,40] 0,5 0,6 0,0
[40,50] 1,0 2,0 3,5
[50,60] 0,9 0,8 0,0
[60,70] 1,6 2,5 0,7
[70,80] 2,8 4,1 2,0
[80,90] 5,2 5,9 0,9
[90,100] 87,7 83,7 92,5

La figure A5-1 montre que la différence entre les trois groupes est principalement attribuée au score de confiance moyen du géocodage (colonne 1) et au taux de géocodage (colonne 2).

A6. Interprétation des cotes finales de l’indicateur composite de qualité

Après avoir analysé et comparé les profils des groupes pour tous les modèles utilisés pour évaluer la qualité des estimations dans les tableaux 27, 53 et 54, les cotes finales de l’ICQ sont attribuées à chaque groupe. La documentation est fournie aux utilisateurs de données se référant aux valeurs d’étiquette standard des cotes A à F. Une description des composantes de qualité pour chaque cote est également fournie aux utilisateurs, comme le montre le tableau A6-1.


Tableau A6-1
Valeurs de l'indicateur composite de qualité, étiquettes standard et interprétations détaillées dans le contexte du Programme de la statistique du logement canadien
Sommaire du tableau
Le tableau montre les résultats de Valeurs de l'indicateur composite de qualité. Les données sont présentées selon Cote (titres de rangée) et Étiquette standard et Interprétation(figurant comme en-tête de colonne).
Cote Étiquette standard Interprétation
A Excellent Toutes les variables de domaine et la variable d’intérêt sont d’excellente qualité.
B Très bon Toutes les variables du domaine et la variable d’intérêt sont d’une qualité allant de très bonne à excellente.
C Bon La qualité de la variable géographie est considérée comme étant bonne, tandis que toutes les autres variables de domaine et la variable d’intérêt sont de qualité allant de très bonne à excellente.
D Acceptable Les variables géographie et période de construction sont de qualité acceptable, tandis que toutes les autres variables de domaine et la variable d’intérêt sont de qualité allant de bonne à excellente.
E Utiliser avec prudence Plusieurs variables de domaine ou la variable d’intérêt sont de piètre qualité.
F Trop peu fiable pour être publié -

Références

Groves, R.M. et L. Lyberg. 2010. « Total Survey Error: Past, Present, and Future », Public Opinion Quarterly, vol. 74, p. 849 à 879. https://doi.org/10.1093/poq/nfq065

Statistique Canada. 2000. Politique visant à informer les utilisateurs sur la qualité des données et la méthodologie. https://www.statcan.gc.ca/fra/apercu/politique/info-usager

Statistique Canada. 2019. Ligne directrice concernant la qualité de Statistique Canada, sixième édition, no 12-539-X au catalogue, Ottawa, Statistique Canada. https://www150.statcan.gc.ca/n1/pub/12-539-x/12-539-x2019001-fra.htm

Statistique Canada. 2021. Tableau 46-10-0027-01 Participation à la résidence des propriétés résidentielles, par type de propriété et période de construction [tableau des données].
https://doi.org/10.25318/4610002701-fra

Statistique Canada. 2021. Tableau 46-10-0053-01 : Type de propriétaire et usage de la propriété par type de propriété résidentielle et période de construction [tableau des données].
https://doi.org/10.25318/4610005301-fra

Statistique Canada. 2021. Tableau 46-10-0054-01 : Résidence de la propriété et usage de la propriété par type de propriété résidentielle et période de construction  [tableau des données].
https://doi.org/10.25318/4610005401-fra


Date de modification :