Section 5
Les erreurs de traitement

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Proportion de ménages ou personnes nécessitant imputation, à l'échelle nationale et provinciale

Des erreurs peuvent se produire lors de toutes les manipulations des données. Les principales étapes du traitement des données sont le codage des réponses, la saisie des données, la vérification, l'imputation des non-réponses partielles et la pondération. Dans l'enquête sur les dépenses des ménages (EDM), différentes procédures sont appliquées à chacune des étapes afin de réduire au minimum les erreurs de traitement et les estimations de l'enquête sont comparées avec d'autres sources avant d'être publiées. Les erreurs qui peuvent découler des ajustements effectués lors de la pondération ont été décrites dans les sections 2 et 3. La présente section couvre principalement les autres types d'erreurs de traitement.

En raison du passage à un mode de collecte assisté par ordinateur en 2006, les mesures de traitement des données et de contrôle de la qualité ont été modifiées. Des vérifications automatiques intégrées à ce questionnaire ont remplacé les contrôles d'équilibre et les vérifications dans les bureaux régionaux qui se faisaient auparavant. Pour l'EDM de 2007, les intervieweurs ont saisi les réponses sur ordinateur portatif et procédé à une première vérification simultanément. Ainsi, les contrôles d'intervalle, qui présentaient des minimums et des maximums pour certains achats ont été appliqués si l'intervieweur entrait un montant inusité. D'autres vérifications visaient les réponses incohérentes si, par exemple, le ménage occupait son logement en location, mais qu'aucun loyer n'était payé.

Le traitement des données de l'EDM comprend également l'imputation de données pour la non-réponse partielle. Il y a non-réponse partielle lorsque le répondant refuse de répondre ou ne connaît pas la réponse à certaines questions particulières. L'approche pour imputer les données diffère selon qu'il s'agit de données catégoriques ou continues. Les données catégoriques peuvent prendre uniquement quelques valeurs (comme les questions pour lesquelles la réponse est oui ou non et les questions sur le type de logement habité) alors que les données continues peuvent prendre n'importe quelle valeur numérique (comme les revenus et les dépenses).

Les données sur le revenu et les dépenses sont imputées au moyen de la technique du plus proche voisin. L'imputation se fait sur un groupe de variables à la fois, ce groupe étant formé de sorte à tenir compte des relations entre ces variables. Un groupe correspond généralement à une section du questionnaire. Pour chaque groupe, les valeurs manquantes d'un receveur (un ménage qui a des données manquantes pour au moins une de ces variables) sont imputées à partir des données du plus semblable parmi tous les donneurs (les ménages qui n'ont aucune donnée manquante pour ces variables). Pour chaque receveur, on détermine le donneur le plus semblable comme étant celui qui a la valeur minimale pour une certaine fonction de distance. Cette fonction est basée sur des variables d'appariement choisies parce qu'elles sont corrélées avec les variables à imputer. Par exemple, le revenu total du ménage fait partie des variables d'appariement pour presque toutes les sections portant sur les dépenses. Dans le choix du donneur, on tient compte également du fait que le receveur doit satisfaire certaines règles de cohérence après l'imputation de ces données manquantes. Pour la plupart des sections, l'imputation est effectuée au niveau du ménage mais dans certains cas, par exemple pour le revenu et les dépenses en vêtements, l'imputation est effectuée au niveau de la personne car c'est à ce niveau que l'on collecte l'information pour ces variables.

Notons que depuis 2001, l'imputation des données sur le revenu et les dépenses est effectuée à l'aide du Système canadien de contrôle et d'imputation du recensement (SCANCIR) de Statistique Canada. Le nouveau système utilise une méthodologie quelque peu différente de celle du système utilisé auparavant. Ce système permet une meilleure utilisation des données catégoriques lors de la sélection du donneur. De plus, ce système permet à la fois l'imputation des données continues et des données catégoriques. Des tests ont été effectués avant l'introduction du système et les résultats obtenus étaient semblables à ceux obtenus avec l'ancien système. À compter de 2003, les données catégoriques, qu'on trouve principalement dans les sections sur les caractéristiques et l'équipement du logement, sont imputées à l'aide du SCANCIR. Les données catégoriques étaient imputées auparavant à l'aide d'une technique "hot deck" où un ménage donneur est choisi de façon aléatoire parmi un groupe de ménages répondants possédant des caractéristiques semblables.

Le biais des estimations causé par l'imputation de la non-réponse partielle est difficile à évaluer. Il dépend de la différence entre les répondants et les non-répondants ainsi que de la capacité de la méthode d'imputation à produire des estimations non biaisées. Toutefois, les taux d'imputation donnent une indication de l'importance des non-réponses partielles. Ils sont présentés dans la section suivante.

5.1 Proportion de ménages ou personnes nécessitant imputation, à l'échelle nationale, provinciale et territoriale

Une première indication de l'ampleur de la non-réponse partielle est la proportion de ménages nécessitant imputation et le nombre de variables imputées par ménage. Le questionnaire peut se diviser en deux grands groupes de variables, celles qui sont recueillies au niveau du ménage et celles collectées auprès des individus telles que le revenu et les dépenses en vêtements. Pour ces dernières catégories, il est important de noter que l'on accepte que le répondant fournisse seulement le revenu total ou les dépenses totales s'il est incapable de fournir la ventilation par source de revenu ou type de dépenses. Le niveau d'imputation pour les composantes du revenu et des dépenses vestimentaires est donc plus élevé mais n'affecte pas le revenu total, les dépenses vestimentaires totales ainsi que le total des dépenses.

Le pourcentage de ménages pour lesquels il a fallu imputer des dépenses de ménage (excluant les dépenses vestimentaires et les dépenses de la section sur l'impôts personnels, sécurité et dons en argent) est présenté dans la prochaine sous-section. Dans celle qui la suit, on présente le pourcentage de personnes pour lesquelles il a fallu imputer au moins une variable reliée aux dépenses vestimentaires, le pourcentage de personnes pour lesquelles au moins une variable de revenu a été imputée et le pourcentage de personnes pour lesquelles il a fallu imputer au moins une variable de la section sur l'impôts personnels, sécurité et dons en argent. Finalement dans la dernière sous-section on présente les résultats pour le pourcentage de ménages pour lesquels il a fallu imputer au moins une des variables catégoriques. À la suite de l'imputation des données par le système, certaines corrections peuvent s'avérer nécessaires, autant sur les variables imputées par le système que sur les autres, afin d'assurer la cohérence des données. Dans les faits, ces modifications représentent un très faible pourcentage. Les résultats sont fournis tant à l'échelle nationale que provinciale. Cela fournit une indication des provinces qui sont les plus affectées par l'imputation.

5.1.1 Imputation des dépenses des ménages par province et territoire

Le pourcentage de ménages utilisables pour lesquels il a fallu imputer au moins une variable de dépenses figure dans le tableau 5.1-1. Les ménages utilisables correspondent à tous les ménages demeurant dans des logements admissibles, à l'exception de ceux qui n'ont pu être contactés, qui ont refusé de participer à l'enquête, qui ont fourni des données incomplètes ou qui ne balançaient pas (voir définitions dans la section 2.1). Le tableau est réparti en fonction du nombre de variables qui ont été imputées (parmi les 242) pour un ménage.

Il importe de préciser que les paiements hypothécaires réguliers ainsi que les primes d'assurance hypothécaire sont inclus au titre des dépenses de logement et donc dans les dépenses totales. Depuis 2002, ces deux variables sont ajoutées au calcul des taux d'imputation présentés au tableau 5.1-1. Ceci a pour effet d'augmenter le taux global d'imputation.

Depuis 2004, un changement a été apporté au questionnaire en ce qui concerne les dépenses reliées aux services de communication au foyer (téléphone, téléphone cellulaire et accès à Internet), aux services de télédistribution, aux services de diffusion par satellite ainsi qu'aux systèmes de sécurité. En raison de l'utilisation grandissante des forfaits (services groupés), un ménage peut-être facturé pour des services combinés, de façon qu'il est impossible pour celui-ci de fournir les dépenses pour les services individuels. On accepte alors que le ménage répondant fournisse seulement les dépenses totales de ces services, tout en indiquant quels services sont inclus dans le forfait. L'imputation des dépenses des services individuels s'effectue alors en deux étapes. Dans un premier temps on impute les ménages pour lesquels seulement quelques services sont manquants, suivis des ménages pour lesquels seulement le total des dépenses du forfait est disponible. Pour ces derniers ménages, les dépenses des services (ceux inclus dans le forfait) imputés sont ajustées au prorata afin que leur somme corresponde au total des dépenses du forfait fourni par le ménage répondant. Étant donné que ce changement a eu un impact important sur le taux global d'imputation des dépenses, les taux d'imputation du tableau 5.1-1 sont présentés séparément avec et sans les frais de services de communication au foyer, de location de services de télédistribution, de location de services de diffusion par satellite et de location de systèmes de sécurité. De plus, puisque ce changement a eu un impact sur le niveau d'imputation des dépenses de ces six services, le taux d'imputation ainsi qu'une mesure d'impact de l'imputation pour chacun de ces services sont présentés au tableau 5.1-2.

Tableau 5.1-1 Ménages qui nécessitent l'imputation de dépenses par province et territoire

Le tableau 5.1-1 montre qu'il a fallu imputer des dépenses pour 49,5 % des ménages à l'échelle nationale. Depuis 2004, ce taux est plus élevé dû au changement apporté au questionnaire en ce qui concerne les dépenses reliées aux services de communication au foyer (téléphone, téléphone cellulaire et accès à Internet), aux services de télédistribution, aux services de diffusion par satellite et aux systèmes de sécurité. En effet, environ 39 % (donnée non présentée) des ménages utilisables ont nécessité l'imputation d'au moins un de ces six services. La presque totalité des cas correspond à la situation où les ménages avaient déclaré avoir payé pour un forfait (services groupés) et que les dépenses associées aux services compris dans le forfait ont été imputées. Les taux d'imputation plus élevés lorsque l'on tient compte de ces six variables, tels que présentés à la colonne « 2 variables imputées » et à la colonne « 3 variables imputées ou plus », s'expliquent par le fait qu'un forfait comprend habituellement deux services ou plus. Le taux global d'imputation en excluant les dépenses reliées aux services de communication au foyer, aux services de télédistribution, aux services de diffusion par satellite et aux systèmes de sécurité est de 19,6 % à l'échelle nationale. À elle seule, la variable représentant les primes d'assurance hypothécaire nécessite une imputation pour 5,4 % des ménages utilisables (soit 14,6 % des ménages lorsque l'on se restreint aux ménages ayant déclaré des hypothèques sur les logements dont ils étaient propriétaires et occupants) (donnée non présentée).

Lorsque l'on exclut les dépenses reliées aux services de communication au foyer (téléphone, téléphone cellulaire et accès à Internet), aux services de télédistribution, aux services de diffusion par satellite et aux systèmes de sécurité, on constate que près de 62 % des ménages utilisables (nécessitant imputation) ont nécessité l'imputation d'une seule variable. De plus, il y a relativement peu de ménages à l'échelle nationale qui ont eu plus d'une variable imputée (7,4 %). Les provinces ou territoires pour lesquels on observe les plus basses proportions de ménages ayant requis l'imputation d'au moins une variable de dépense sont le Nunavut (10,4 %) et le Yukon (15,2 %). On retrouve les taux les plus élevés au Québec (22,2 %), en Alberta (23,1 %) et en Nouvelle-Écosse (23,5 %). C'est en Nouvelle-Écosse et en Colombie-Britannique où l'on trouve le pourcentage le plus élevé de ménages pour lesquels il a fallu imputer plus d'une variable de dépenses. Dans ces deux provinces, on a imputé au moins deux variables de dépenses pour plus de 40 % des ménages qui nécessitaient une imputation.

Si on exclut les paiements hypothécaires réguliers, les primes d'assurance hypothécaire, les dépenses reliées aux services de communication au foyer aux services de télédistribution, aux services de diffusion par satellite et aux systèmes de sécurité, le faible pourcentage de ménages pour lesquels des variables doivent être imputées, combiné à un nombre généralement peu élevé de variables à imputer lorsque l'imputation est nécessaire, suggère que l'impact des valeurs imputées sur les estimations ne devrait pas être trop élevé.

Puisque le niveau d'imputation des dépenses reliées aux services de communication au foyer, aux services de télédistribution, aux services de diffusion par satellite et aux systèmes de sécurité est plus élevé, il est important de mesurer l'effet de l'imputation sur les estimations de totaux de ces six variables. Cette mesure ainsi que le taux d'imputation permettront de faire un suivi dans le temps de l'ampleur de l'imputation effectuée pour ces variables. La popularité grandissante des forfaits (services groupés) dans la population fait en sorte que le niveau d'imputation devrait augmenter au cours du temps. La mesure d'impact de l'imputation est définie par le total pondéré des données imputées divisé par l'estimation totale (sommes des valeurs pondérées). Elle représente la proportion de la valeur totale de l'estimation provenant de données imputées.

Tableau 5.1-2 Impact de l'imputation à l'échelle nationale des frais de services de communication au foyer, des frais de location pour la télédistribution, pour la diffusion par satellite et pour les systèmes de sécurité

Selon le tableau 5.1-2, le taux d'imputation et l'impact de l'imputation sont plus importants pour les dépenses reliées aux services d'accès à Internet ainsi qu'à la location de services de télédistribution. Cela est principalement dû au fait qu'une proportion importante des forfaits incluait ces deux services parmi les ménages qui ont déclaré avoir payé pour un forfait. Le niveau élevé d'imputation effectuée sur les composantes du tableau 5.1-2 implique que les estimations de celles-ci pourraient être grandement affectées par l'imputation, alors que l'effet sur  l'estimation du total de ces six services combinés sera négligeable, puisque les ménages doivent fournir le total des dépenses associées au forfait. Bien que le taux d'imputation ainsi que l'impact soient élevés pour les dépenses en services d'accès à Internet, la hausse observée en 2007 pour la moyenne des dépenses d'accès à Internet était cohérente avec les tendances observées provenant d'autres sources d'information indépendantes. Les services d'accès à Internet représentent 19,8 % de toutes les dépenses des ménages au chapitre des communications. Par ailleurs, le total des dépenses des six services combinés du tableau 5.1-2 ne représente que 2,8 % des dépenses totales des ménages.

5.1.2 Imputation des dépenses des personnes et du revenu par province et territoire

Étant donné qu'une partie des répondants fournissent uniquement le total pour les variables de dépenses en vêtements et les variables de revenu, celles-ci sont imputées, au niveau des individus, en deux étapes. Les individus pour lesquels il faut imputer seulement quelques composantes sont imputés en premier lieu, suivis par ceux pour lesquels seulement les totaux sont disponibles et qui nécessitent l'imputation de toutes les composantes. (Voir la référence [1] pour une description plus détaillée de ce processus).

Le pourcentage d'individus utilisables (personnes membres des ménages utilisables) pour lesquels il a fallu imputer au moins une variable de revenu est indiqué par province et territoire dans le tableau 5.2. On y retrouve le pourcentage de personnes pour lesquelles exactement une variable a été imputée, ceux dont deux variables ou plus (mais pas toutes) ont été imputées et le pourcentage des personnes pour lesquelles seul le revenu total était disponible, nécessitant ainsi l'imputation de toutes les composantes. Le pourcentage total de personnes pour lesquelles une forme d'imputation de revenu a été effectuée est également donné. L'avant dernière colonne du tableau 5.2 contient ce même pourcentage total de personnes pour lesquelles une forme d'imputation a été effectuée, mais pour les dépenses en vêtements. La dernière colonne contient le pourcentage total de personnes pour les lesquelles une forme d'imputation a été effectuée pour les variables de la section du questionnaire portant sur les impôts personnels, sécurité et dons en argent.

Il importe de préciser que seuls les membres du ménage âgés de 15 ans et plus au 31 décembre de l'année de référence doivent répondre aux questions portant sur le revenu personnel et celles de la section sur les impôts personnels, sécurité et dons en argent. Par conséquent, depuis l'année de référence 2003, le pourcentage de personnes qui nécessitent l'imputation de variables de revenu ou pour celles de la section sur l'impôts personnels, sécurité et dons en argent a été calculé en se restreignant aux personnes de 15 et plus et non sur l'ensemble des personnes comme pour les années précédentes. Ceci a pour effet d'augmenter légèrement le taux d'imputation pour ces variables. Tout comme pour les années précédentes, le pourcentage de personnes qui nécessitent l'imputation de dépenses vestimentaires est calculé sur l'ensemble des personnes, puisque tous les membres d'un ménage doivent répondre aux questions portant sur ce type de dépenses.

Tableau 5.2 Personnes qui nécessitent l'imputation du revenu, personnes qui nécessitent l'imputation de dépenses en vêtements et personnes qui nécessitent l'imputation de variables de la section sur les impôts personnels, sécurité et dons en argent par province et territoire

À partir de ces résultats, on constate qu'il y a 5,4 % des personnes des ménages utilisables pour lesquelles il a fallu imputer au moins une variable de revenu. Pour près de 60 % d'entre elles, exactement une variable a été imputée. À l'échelle provinciale, le pourcentage de personnes nécessitant l'imputation d'au moins une variable de revenu varie entre un minimum de 3,9 % pour Terre-Neuve-et-Labrador et un maximum de 7,5 % en Colombie-Britannique.

Dans l'avant dernière colonne du tableau, on note que 9,6 % des personnes ont nécessité une imputation pour au moins une des variables de dépenses vestimentaires. Les taux provinciaux s'échelonnent de 3,7 % pour Terre-Neuve-et-Labrador à 15,0 % pour la Nouvelle-Écosse. Presque toutes ces personnes ont fourni le total de leurs dépenses vestimentaires, mais il a fallu imputer les composantes. Le niveau élevé d'imputation effectuée sur les composantes des dépenses vestimentaires implique que les estimations de ces composantes pourraient être grandement affectées par l'imputation, alors que l'effet sur les estimations du total sera négligeable.

Dans la dernière colonne du tableau, on constate que 9,9 % des personnes ont nécessité une imputation pour au moins une des variables de la section sur les impôts personnels, sécurité et dons en argent. À l'échelle provinciale, ce pourcentage varie entre un minimum de 7,9 % en Saskatchewan et un maximum de 12,9 % au Nouveau-Brunswick.

5.1.3 Imputation des variables catégoriques par province et territoire

Le pourcentage de ménages utilisables pour lesquels il a fallu imputer au moins une variable catégorique figure dans le tableau 5.3. Le tableau est réparti en fonction du nombre de variables qui ont été imputées (parmi les 41) pour un ménage. Les variables catégoriques qui sont imputées se trouvent aux sections suivantes du questionnaire : Caractéristiques du logements (à l'exception de la variable genre de logement ), Équipement associé au logement , Mode d'occupation du logement (à l'exception des variables se rapportant au changement dans le mode d'occupation durant l'année de référence ), Tabac et dépenses diverses, pour les variables se rapportant aux achats par le biais de vente directe (questions pour lesquelles la réponse est oui ou non). Il est à noter que les autres variables catégoriques du questionnaire telles que celles se rapportant à la composition du ménage ou encore aux divers branchements du questionnaire sont vérifiées et validées par les spécialistes du sujet de la Division de la statistique du revenu. Par conséquent, ces dernières variables ne sont pas imputées au moyen de la technique du plus proche voisin.

Tableau 5.3 Ménages qui nécessitent l'imputation de variables catégoriques par province et territoire

Le tableau 5.3 montre qu'à l'échelle nationale, il a fallu imputer au moins une variable catégorique se rapportant aux caractéristiques du logements et équipement associé au logement, au mode d'occupation du logement et aux achats par le biais de vente directe pour 8,9 % des ménages. Toutefois, pour environ 74 % d'entre eux seulement une variable a été imputée. À l'échelle provinciale, le taux d'imputation total varie entre un minimum de 4,8 % pour Terre-Neuve-et-Labrador et un maximum de 10,4 % au Manitoba et en Alberta.

Date de modification :