Qualité des données, concepts et méthodologie : Qualité des données démographiques
Consulter la version la plus récente.
Information archivée dans le Web
L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.
Les estimations sont entachées d’une certaine marge d’imprécision qui provient de deux types d’erreur :
- des erreurs des données du recensement;
- des imperfections des autres sources de données et des méthodes d’estimations des composantes.
Données du recensement
A. Erreurs de couverture, de réponse et de traitement
Les erreurs attribuables aux données de recensement peuvent être divisées en deux groupes : réponse et traitement, et couverture. Le premier groupe comprend les erreurs de non-réponse, l'interprétation erronée de la part des répondants, le codage et l'imputation des non-réponses. Les erreurs du second groupe sont dues principalement aux estimations du sous-dénombrement et à un degré moindre, au surdénombrement. Ces deux types d'erreur sont inhérents à n'importe quelle enquête.
Les erreurs de couverture se produisent lorsqu’on oublie des logements et/ou des personnes, qu’on les inclut à tort (à l’exception des recensements de 2006 et 2011, où les personnes incluses à tort ne font pas partie de l’Étude sur le surdénombrement du recensement) ou qu’on les compte plus d’une fois. Après chaque recensement, Statistique Canada entreprend des études de couverture pour mesurer ces erreurs. Les principales études sont l’Enquête sur la Contre-vérification des dossiers (CVD) et l’Étude sur le surdénombrement du recensement (ESR). On tire de ces études des estimations de sous-dénombrement et de surdénombrement avec lesquelles la Division de la démographie rajuste la population dénombrée au recensement par province et territoire.
Lors de l’élaboration des populations de départ, le programme des estimations corrige les populations du recensement pour les erreurs de couverture seulement. Cette correction, basée sur les résultats des études de couverture, est sujette principalement aux erreurs dues à l’échantillonnage et, dans une moindre mesure, à des erreurs de traitement. Les tests statistiques indiquent que les ajustements pour la couverture améliorent la qualité des données du recensement. Le programme des estimations utilise les estimations des études de couverture pour les provinces et les territoires. Cependant, étant donnée la taille des échantillons de ces études, les estimations par âge et sexe sont modélisées. De plus, on suppose que les taux de couverture estimés pour une province ou un territoire s’appliquent aux régions situées à l’intérieur de cette province ou territoire. Par ailleurs, avant 1991, le programme des estimations utilisait des données du recensement non corrigées pour les erreurs de couverture dans son programme des estimations. Des études de couverture avaient cependant été menées pour mesurer le sous-dénombrement, mais aucune étude ne mesurait le surdénombrement. Suite à la décision d’intégrer la correction pour la couverture à la population dénombrée depuis 1991, le programme a dû réviser les estimations de population pour la période de 1971 à 1986. La correction repose sur les résultats des études de couverture de cette période et sur des hypothèses concernant le rapport entre le niveau de surdénombrement et le niveau de sous-dénombrement d’après les résultats trouvés dans les études de couverture subséquentes.
Les corrections apportées aux données du recensement pour le SDNR améliorent, en général, la qualité des estimations en compensant pour le sous-dénombrement différentiel aux différents recensements selon l'âge, le sexe et par province et territoire.
Le rajustement intègre également les résultats d’une étude sur l’estimation des personnes vivant dans des réserves indiennes partiellement dénombrées pour compléter la correction des données du recensement pour les erreurs de couverture. Les résultats des études de couverture contiennent principalement des erreurs aléatoires liées à l’échantillonnage.
Ces rajustements ont un impact direct sur :
- l'erreur en fin de période et sa distribution par âge et sexe à l'intérieur d'une même province ou territoire, de même que par province ou territoire, étant donné la variation du SDNR1 et sa distribution d'un recensement à l'autre;
- la cohérence des estimations de population pour une même cohorte de naissance. Prenons l’exemple de la cohorte masculine des moins de 5 ans en 1981. En utilisant des données de recensement non rajustées pour le SDNR1, on remarque que ce groupe est moins nombreux au Recensement de 2001 (groupe des 20 à 24 ans) qu’à celui de 1996 (groupe des 15 à 19 ans). Comme le Canada reçoit beaucoup d'immigrants à ces âges, on se serait attendu au contraire. Or, ce n’est qu’après le rajustement pour le SDNR1 que la taille de la cohorte augmente, tel qu’attendu, entre 1996 et 2001.
Pour de plus amples informations sur les principales études de couverture, veuillez consulter le document suivant sur le site Internet de Statistique Canada : Rapport technique du Recensement de 1996, 2001, 2006 et 2011 sur la couverture.
Composantes
Les erreurs provenant des méthodes d’estimation et des sources de données autres que le recensement ont également une importance non négligeable.
A. Naissances et décès
La loi exigeant la tenue d'un registre de l'état civil, les estimations définitives des naissances et des décès répondent à des normes de qualité très élevées. Toutefois, puisque les données provisoires sont modélisées, elles diffèrent légèrement des données définitives.
B. Immigration et résidents non permanents
En ce qui concerne les immigrants et les résidents non permanents, Immigration, Réfugiés et Citoyenneté Canada (IRCC) (anciennement Citoyenneté et Immigration Canada (CIC)) administre des fichiers propres à ces deux composantes. L’immigration étant contrôlée par une loi, les données sur les immigrants et les résidents non permanents (RNP) sont systématiquement recueillies à leur arrivée au Canada. Ces données ne concernent que l’immigration « légale » et excluent donc les immigrants illégaux. Ainsi, les données sur les entrées internationales « légales » au Canada sont considérées d’une qualité supérieure. Toutefois, des biais peuvent exister quant à la province de destination : celle envisagée par l’immigrant au moment de l’arrivée peut différer de celle où il résidera de fait. Enfin, parce que l'information fournie par le Système sur les visiteurs (SV) de l’IRCC est incomplète (l'âge et le sexe des personnes à charge, la province de résidence pour certains groupes de détenteurs de permis), les estimations de RNP sont plus sujettes aux erreurs que les données sur les immigrants.
C. Émigration, émigration de retour et solde de l’émigration temporaire
Parmi les composantes qu’utilise le programme des estimations de population, l’émigration, l’émigration de retour et le solde de l’émigration temporaire sont les plus difficiles à estimer avec précision puisque le Canada n’a pas de système d’enregistrement à ses frontières. Alors que l’immigration et les résidents non permanents (RNP) sont bien documentés par le gouvernement fédéral, Statistique Canada a toujours eu recours à des techniques d’estimations indirectes pour estimer le nombre de personnes quittant le pays. Pour cette raison, les statistiques disponibles sur ces trois composantes ont toujours été d’une moins bonne précision que celles des autres composantes.
L’estimation des émigrants et des émigrants de retour provient d’informations tirées du fichier de prestation fiscale canadienne pour enfants (PFCE) de l’Agence du revenu du Canada (ARC). L’estimation doit être rajustée afin de tenir compte des enfants non admissibles au programme et dériver l’émigration et l’émigration de retour des adultes.
Ces rajustements et le délai d’obtention des données sont les deux principales sources d’erreur. Comme il n’existe pas d’informations courantes sur les personnes temporairement à l’étranger, les estimations sont basées sur la Contre-vérification des dossiers (CVD) et le recensement. Les estimations pour la période intercensitaire, réparties également entre les cinq années, sont maintenues constantes pour la période postcensitaire. De plus, certaines hypothèses doivent être admises afin de répartir les données nationales par province et territoire et les données annuelles par trimestre. Toute variation géographique ou trimestrielle peut entraîner une erreur dans l’estimation de ces composantes.
D. Migration interprovinciale
Depuis juillet 1993, les estimations provisoires2 de la migration interprovinciale sont établies à partir des fichiers de prestation fiscale canadienne pour enfants (PFCE). Puisque ce programme ne couvre que les enfants, plusieurs ajustements doivent être faits afin de dériver la migration des adultes. Par conséquent, nous croyons que les estimations provisoires basées sur les PFCE sont sujettes à des erreurs plus importantes que celles établies à partir des fichiers de données fiscales de l’Agence du revenu du Canada (ARC).
E. Ventilation des composantes
La finesse de la ventilation des données accroît les risques d'erreur de sorte que la qualité de l'estimation des composantes devient plus douteuse avec le fractionnement par âge et sexe. Il semble qu'en général, les erreurs initiales soient moindres en ce qui concerne la ventilation des nombres annuels de naissances, de décès et d'immigrants, qu'en ce qui a trait à celle des autres composantes (résidents non permanents, émigrants, émigrants de retour, solde de l’émigration temporaire et migrants interprovinciaux et infraprovinciaux). Enfin, l'importance de l'erreur causée par la distribution selon l'âge et le sexe peut varier selon la période, et l'erreur relative à certaines composantes peut avoir un effet plus prononcé sur certains groupes d'âge ou sur un sexe donné.
Évaluation de la qualité
Afin d’évaluer la qualité de nos estimations, deux mesures d’évaluation sont utilisées : les erreurs de précocité et les erreurs en fin de période.
A. Erreur de précocité
La qualité des estimations démographiques provisoires des composantes est évaluée à l’aide des erreurs de précocité. L’erreur de précocité correspond à la différence entre les estimations provisoire et définitive d’une composante donnée divisée par la population totale de la région géographique en cause. L’erreur de précocité peut se calculer tant pour les estimations de la population que pour celles des composantes. L’erreur de précocité mesure l’incidence du compromis entre l’exactitude et l’actualité, en faveur de la seconde, sur la population estimée. L’erreur de précocité pour les composantes est calculée comme suit :
Figure 1 : L'erreur de précocité
L’analyse de l’erreur de précocité nous permet de procéder à des comparaisons utiles entre les composantes ainsi qu’entre les provinces et les territoires ayant des populations de tailles différentes. L’erreur de précocité peut être positive ou négative. Une erreur de précocité positive indique une estimation provisoire supérieure à l’estimation définitive, alors qu’une erreur de précocité négative indique l’inverse.
Erreur de précocité selon la composante, Canada
Au niveau national, la composante de l’immigration était associée aux erreurs de précocité les plus faibles, la valeur de l’erreur étant proche de zéro pour mille pour l’ensemble des années à l’étude. Par contre, les entrants et les sortants interprovinciaux 1 affichaient les erreurs de précocité les plus élevées, la valeur de l’erreur variant de 0,07 pour mille à 2,24 pour mille entre 2011-2012 et 2014-2015 (voir le tableau explicatif 3).
Les erreurs de précocité pour les naissances étaient généralement faibles comparativement à celles des autres composantes, l’erreur de précocité la plus élevée atteignant 0,27 pour mille en 2010-2011. À l’instar des naissances, les décès donnaient lieu à des erreurs de précocité peu élevées, les valeurs étant inférieures ou égales à 0,31 pour mille.
Les erreurs de précocité pour l’émigration et l’émigration de retour étaient généralement négatives, c’est-à-dire que les estimations provisoires étaient inférieures aux estimations définitives. Au cours des années considérées, l’erreur de précocité de l’émigration était à son niveau le plus bas en 2009-2010 à 0,05 pour mille et à son niveau le plus élevé en 2008-2009 à -0,36 pour mille. Du côté de l’émigration de retour, les valeurs oscillaient entre -0,11 pour mille en 2011-2012 à -0,33 pour mille en 2010-2011. Durant la période allant de 2008-2009 à 2010-2011, les erreurs de précocité du solde de l’émigration temporaire étaient faiblement positives, estimées à 0,05 pour mille. Elles ont ensuite augmenté légèrement à 0,31 pour mille en 2011-2012.
Au cours de la période à l’étude, les erreurs de précocité pour le solde des résidents non permanents étaient habituellement faiblement négatives. Les erreurs de précocité étaient stables à -0,04 pour mille en 2008-2009 et 2009-2010 et ont légèrement augmenté ensuite à -0,08 pour mille en 2010-2011. L’erreur de précocité du solde des résidents non permanents était positive en 2011-2012, estimée à 0,02 pour mille.
Erreur de précocité selon la composante, provinces et territoires
En règle générale, l’erreur de précocité est normalement plus importante dans les provinces ou les territoires de petite taille, puisqu’il s’agit d’une erreur qui varie selon la taille de la population. Au niveau provincial et territorial, les erreurs de précocité pour les naissances étaient peu élevées, variant de près de zéro pour mille (au Québec en 2009-2010) 2 à -1,67 pour mille (au Nunavut en 2009-2010). Comme dans le cas des naissances, les erreurs de précocité pour les décès étaient faibles, mais principalement positives. Pour l’ensemble des années, l’erreur de précocité la plus importante pour les décès s’est élevée à 1,03 pour mille (Territoires du Nord-Ouest en 2010-2011).
Comparativement à d’autres composantes démographiques, l’immigration présentait des erreurs de précocité peu élevées dans les provinces et les territoires, la valeur absolue de l’erreur ne dépassant pas 0,15 pour mille pour les années à l’étude.
Le solde des résidents non permanents, lui aussi, affichait des erreurs de précocité peu élevées au cours de la période allant de 2008-2009 à 2010-2011. Les erreurs en valeurs absolues étaient inférieures ou égales à 0,41 pour mille pour les provinces et territoires. Les erreurs de précocité étaient plus élevées en 2011-2012, allant de -0,12 pour mille au Nunavut à 3,19 pour mille au Yukon.
Les erreurs de précocité pour l’émigration oscillaient entre -0,01 pour mille (Nouveau-Brunswick en 2009-2010) à 1,31 pour mille (Territoires du Nord-Ouest en 2009-2010). Les erreurs de précocité pour l’émigration de retour étaient généralement négatives, et les valeurs variaient d’environ 0,0 pour mille pour certaines années dans les Territoires du Nord-Ouest et au Nunavut à -0,74 pour mille au Yukon en 2009-2010. Les erreurs de précocité pour le solde de l’émigration temporaire étaient positives au cours de la période considérée, sauf pour la Colombie-Britannique (de 2008-2009 à 2011-2012) et les Territoires du Nord-Ouest (de 2008-2009 à 2010-2011 seulement).
Les erreurs de précocité pour les entrants et les sortants interprovinciaux indiquent que les estimations définitives de ces composantes étaient systématiquement inférieures aux estimations provisoires (avec sept exceptions pour les entrants et quatre exceptions pour les sortants). Les erreurs de précocité pour les entrants et les sortants interprovinciaux étaient considérablement plus faibles en 2014-2015 comparativement aux années précédentes. Cela est attribuable à la mise en place d’une méthodologie révisée pour estimer la migration interprovinciale et qui a comme conséquence de réduire la surestimation des estimations provisoires 3 .
À l’échelon provincial, l’erreur de précocité en valeur absolue la plus marquée pour le solde migratoire interprovincial s’est élevée à -4,62 pour mille (à Terre-Neuve-et-Labrador en 2013-2014), et la plus faible était d’environ 0,0 pour mille (en Ontario en 2014-2015). Les erreurs de précocité associées au solde migratoire interprovincial pour l’Alberta, une province qui a réalisée des gains dans ses échanges migratoires interprovinciaux au cours des dernières années mais qui a enregistré des pertes récemment, ont varié d’un creux de 0,14 pour mille en 2011-2012 à un sommet de 3,63 pour mille en 2012-2013.
Contribution des composantes à la somme des erreurs de précocité
Les estimations agrégées des erreurs de précocité peuvent produire un « effet de compensation », c’est-à-dire que les erreurs de précocité négatives associées à une composante pourraient neutraliser les erreurs positives associées à une autre composante. Il est possible d’analyser la contribution de chaque composante à la somme des erreurs de précocité sans effet de compensation en utilisant les valeurs absolues des erreurs de précocité. On calcule l’erreur de précocité absolue moyenne en pourcentage de la composante en divisant l’erreur absolue moyenne de la composante par la somme des erreurs et en exprimant le résultat en pourcentage. Dans le cas qui nous intéresse, l’erreur de précocité absolue moyenne selon la composante correspond à la moyenne des erreurs de précocité absolues pour la période allant de 2007-2008 à 2011-2012.
Au niveau national, entre 2007-2008 et 2011-2012, l’erreur de précocité absolue moyenne de la composante de l’émigration totale 4 est celle qui a le plus contribué à la somme des erreurs de précocité absolues moyennes (60,64 %), suivie des erreurs associées aux décès (19,98 %) et aux naissances (14,60 %). L’immigration et le solde des résidents non permanents contribuaient chacun à moins de 5,0 % de la somme des erreurs de précocité absolues moyennes (voir le tableau explicatif 4).
Au niveau provincial et territorial, la contribution des différentes composantes à la somme des erreurs de précocité absolues moyennes variait d’une région à l’autre du pays. Le solde migratoire interprovincial est la composante qui a eu l’incidence la plus marquée sur la somme des erreurs de précocité absolues moyennes dans neuf des treize provinces et territoires, sa contribution variant de 37,76 % en Alberta à 82,09 % dans les Territoires du Nord-Ouest. Au Nouveau-Brunswick, au Québec, en Ontario et en Colombie-Britannique, c’est l’émigration totale qui a le plus contribué à la somme, son apport s’établissant respectivement à 29,30 %, 48,44 %, 50,59 % et 62,29 % (voir le tableau explicatif 4).
Par ailleurs, les naissances ont eu le moins d’incidence sur la somme des erreurs de précocité absolues moyennes au Québec (2,23 %) et en Colombie-Britannique (1,23 %). Pour les autres provinces et territoires, l’immigration a contribué le moins à la somme des erreurs de précocité absolues moyennes; les valeurs étant estimées à 2,82 % ou moins. Les erreurs de précocité plus faibles pour les naissances et les décès au Québec et en Colombie-Britannique comparativement aux autres provinces peuvent être attribuables au traitement spécial des estimations provisoires pour ces deux composantes 5 .
En ce moment, cette mesure de qualité n’est pas disponible pour les estimations selon l’âge et le sexe.
B. Erreur en fin de période
L'erreur en fin de période permet de mesurer l'exactitude des estimations postcensitaires. Elle est définie comme la différence entre l’estimation postcensitaire définitive, au jour du recensement, et l’estimation de la population du recensement rajustée pour le sous dénombrement net du recensement (SDNR)1. Une erreur en fin de période positive signifie que les estimations démographiques postcensitaires ont surestimé la population.
L'erreur en fin de période provient de deux sources : les erreurs principalement dues à l’échantillonnage dans la mesure de la couverture du recensement et les erreurs relatives aux composantes de l'accroissement démographique pendant la période intercensitaire. Pour chaque période intercensitaire quinquennale, l'erreur en fin de période ne peut être calculée qu'au moment de la diffusion des données du recensement et des estimations du SDNR1. Elle est calculée pour la population totale de chaque province et territoire ainsi que selon l'âge et le sexe.
Le tableau explicatif 5 présente les estimations démographiques postcensitaires au 10 mai 2011, les chiffres censitaires rajustés pour le SDNR1 et les erreurs en fin de période pour le Canada, les provinces et les territoires pour 2001, 2006 et 2011.
À l’échelle canadienne, l’erreur en fin de période était estimée à 171 115 ou 0,50 % en 2011. Il s’agit d’une augmentation par rapport aux erreurs de 2001 (0,16 %) et 2006 (0,14 %).
Les estimations démographiques ont surestimé la population de six provinces, deux territoires et l’ensemble du pays. Quatre provinces et deux territoires ont enregistré des erreurs en fin de période supérieures à 1 % ou inférieures à -1 %. De ces endroits, seule la population estimée de Terre-Neuve-et-Labrador différait de celle du recensement rajusté de plus de 2 % (-2,09 %). En 2006, deux provinces et trois territoires affichaient des erreurs en fin de période supérieures à 1 % ou inférieures à -1 % tandis que c’était le cas pour trois provinces et deux territoires en 2001.
En considérant la variance du SDNR, il est possible d’identifier les erreurs en fin de période qui sont statistiquement significatives. Le tableau explicatif 5 présente les résultats de cette analyse.
L’erreur en fin de période est statistiquement significative pour le Canada, cinq provinces et un territoire. Ceci signifie que les estimations démographiques ont significativement surestimé ou sous-estimé la population de ces endroits. Comme il a été mentionné précédemment, ces résultats proviennent à la fois de la variabilité de la mesure de l’erreur nette de couverture et des erreurs des composantes de l’accroissement démographique. Parmi ces dernières, la migration interprovinciale et l’émigration sont les composantes les plus associées à l’erreur en fin de période.
L’erreur en fin de période est calculée pour la population totale ainsi que selon l’âge et le sexe.
- Date de modification :