Qualité des données

Couplage agriculture–population

L'un des avantages importants de mener le Recensement de l'agriculture en même temps que le Recensement de la population, c'est qu'il est possible de coupler les renseignements provenant de ces sources au moyen d'un processus d'appariement automatisé pour créer la Base de données du couplage agriculture–population. Cette base de données comprend certaines variables du Recensement de l'agriculture et certaines variables du questionnaire détaillé du Recensement de la population (comme la scolarité et la profession). La Base de données du couplage agriculture–population permet d'effectuer la totalisation croisée des caractéristiques socioéconomiques des exploitants agricoles et de leurs familles (p. ex. l'âge, la scolarité et le revenu des exploitants) avec les caractéristiques agricoles des exploitations (p. ex. le type de ferme, la forme juridique, la superficie agricole, les revenus agricoles totaux bruts, les dépenses d'exploitation agricole totales et le capital d'exploitation agricole total).

La Base de données du couplage agriculture–population 2016 s'inscrit dans la lignée des bases de données du couplage des données du Recensement de l'agriculture et du Recensement de la population créées initialement pour les recensements de 1971, et aussi accessibles pour les recensements de 1981, de 1986, de 1991, de 1996, de 2001 et de 2006. Une base de données semblable a été créée en 2011; elle couplait toutefois les données du Recensement de l'agriculture avec les données de l'Enquête nationale auprès des ménages. Cette base de données du couplage Agriculture-Enquête nationale auprès des ménages. La base de données de 2016 cible les exploitants agricoles et leur famille qui ont été dénombrés dans le Recensement de l'agriculture de 2016, à l'exception des exploitants vivant dans les trois territoires du Canada ou en logement collectif.

Comme la Base de données du couplage agriculture–population est un regroupement de renseignements provenant de deux sources de données, les utilisateurs sont encouragés à consulter les documents de référence du Recensement de la population et du Recensement de l'agriculture pour obtenir de plus amples renseignements sur les méthodes utilisées aux fins de la collecte, du traitement et de la diffusion des données.

Nouveautés pour 2016

La Base de données du couplage agriculture–population est un regroupement de renseignements provenant de deux sources de données. Jusqu'en 2006, les renseignements sur la population étaient extraits du questionnaire détaillé du Recensement de la population, un questionnaire obligatoire distribué à 20 % des ménages canadiens. En 2011, les données sur la population avaient pour source l'Enquête nationale auprès des ménages, qui était à participation volontaire et dont le questionnaire a été distribué à environ 33 % des ménages canadiens. En 2016, les renseignements sur les ménages furent à nouveau extraits du questionnaire détaillé du Recensement de la population, un questionnaire obligatoire distribué à 25 % des ménages canadiens. Tout comme en 2011, mais contrairement aux bases de données du couplage des données du Recensement de l'agriculture et du Recensement de la population précédentes, les résidents des logements collectifs n'étaient pas admissibles au questionnaire détaillé du Recensement de la population de 2016. Ils ne sont donc pas représentés dans la Base de données du couplage agriculture–population.

La méthodologie utilisée pour produire les poids attribués à chaque enregistrement a été modifiée pour la base de données de 2016. Ces changements sont décrits plus en détail à la section « Échantillonnage et pondération » du présent document.

En 2016, les estimations de la variance ont été calculées pour la première fois pour les estimations ponctuelles produites à partir de la base de données. Les utilisateurs disposent ainsi de renseignements additionnels relativement au degré de précision des estimations. Cette nouveauté est décrite plus en détail à la section « Qualité et suppression des données » du présent document.

Les utilisateurs devraient être au courant de ces changements lorsqu'ils comparent les résultats de la Base de données du couplage agriculture–population de 2016, de la Base de données du couplage Agriculture-Enquête nationale auprès des ménages de 2011 ainsi que des bases de données du couplage des données du Recensement de l'agriculture et du Recensement de la population précédentes.

Sources d'erreurs

Dans le cadre d'une enquête-échantillon comme la partie du Recensement de la population menée au moyen du questionnaire détaillé, il peut exister deux types d'erreurs : les erreurs d'échantillonnage et les erreurs non dues à l'échantillonnage. Dans un recensement comme le Recensement de l'agriculture, il n'existe que des erreurs non dues à l'échantillonnage.

Il y a erreur d'échantillonnage lorsqu'on estime une caractéristique de la population en mesurant seulement une partie de la population plutôt que la population entière. Cette erreur peut être contrôlée par la taille de l'échantillon, le plan d'échantillonnage et la méthode d'estimation.

Les erreurs non dues à l'échantillonnage sont des erreurs qui n'ont pas de lien avec l'échantillonnage. Il peut s'agir d'erreurs dans la base dont l'échantillon est extrait, de l'utilisation d'outils de collecte inadéquats, de la non-réponse à l'enquête ou encore d'erreurs relatives à la saisie, à la vérification, au codage ou à d'autres étapes du traitement des données. Au cours des phases de planification, de nombreuses mesures ont été mises en œuvre pour réduire l'erreur non due à l'échantillonnage, notamment la mise à l'essai du questionnaire, la formation des intervieweurs ainsi que le contrôle de la qualité de la saisie et du codage des données.

Processus d'appariement automatisé

Les fondements du processus d'appariement automatisé des données du Recensement de l'agriculture et du Recensement de la population sont simples. Un exploitant agricole remplit un questionnaire du Recensement de l'agriculture et un questionnaire du Recensement de la population. L'exploitant peut aussi être choisi pour remplir le questionnaire détaillé du Recensement de la population, distribué à près du quart de l'ensemble des ménages. Le couplage des données du Recensement de l'agriculture et du Recensement de la population se fait au moyen des renseignements communs aux deux questionnaires, comme le nom, le sexe, la date de naissance et l'adresse. Au moyen du couplage existant déjà entre le Recensement de la population et le questionnaire détaillé du Recensement de la population, il est possible de créer la Base de données du couplage agriculture–population. Les recensements de l'agriculture de 1991 à 2016 permettaient aux répondants de déclarer un maximum de trois exploitants par ferme, et tous les exploitants agricoles ont été inclus dans le processus d'appariement. Grâce à ces renseignements supplémentaires, il est possible d'analyser la relation entre les membres de la famille qui habitent dans le même ménage et qui exploitent la même ferme. De plus, il est possible d'inclure dans cette analyse les exploitants de différents ménages qui exploitent la même ferme.

Dans certains cas, le lien entre l'opérateur du Recensement de l'agriculture et le ménage du questionnaire détaillé du Recensement de la population n'a pas abouti en raison de la non-réponse au questionnaire détaillé du Recensement de la population, d'informations incomplètes sur l'opérateur du Recensement de l'agriculture ou d'autres facteurs. Dans le cas de données manquantes du questionnaire détaillé du Recensement de la population, les données du questionnaire détaillé ont été imputées dans la Base de données du couplage agriculture–population avec les informations d'un ménage répondant similaire du Recensement de la population, ou les poids ont été ajustés pour tenir compte des enregistrements non liés. Dans les autres cas où le couplage a échoué, seulement l'imputation des données du questionnaire détaillé a eu lieu.

Taux de réponse et d'imputation

Les tableaux ci-dessous présentent le taux de réponse pondéré pour le questionnaire détaillé du Recensement de la population ainsi que le taux d'imputation pondéré de la Base de données du couplage agriculture–population en 2016.

Tableau 1
Taux de réponse pondéré pour le questionnaire détaillé du Recensement de la population, Canada et provincesTableau 1 Note 1
Sommaire du tableau
Le tableau montre les résultats de Taux de réponse pondéré pour le questionnaire détaillé du Recensement de la population, Canada et provinces. Les données sont présentées selon Provinces (titres de rangée) et Taux de réponse pondéré au questionnaire détaillé du Recensement de la population, calculées selon pourcentage unités de mesure (figurant comme en-tête de colonne).
Provinces Taux de réponse pondéré au questionnaire détaillé du Recensement de la population
%
Canada 95,9
Terre-Neuve-et-Labrador 95,1
Île-du-Prince-Édouard 96,3
Nouvelle-Écosse 96,1
Nouveau-Brunswick 96,2
Québec 96,6
Ontario 96,3
Manitoba 95,8
Saskatchewan 95,1
Alberta 94,8
Colombie-Britannique 94,6

On observe un biais de non-réponse lorsque les non-répondants d'une enquête sont différents de ses répondants. Dans ce cas, plus la non-réponse à une enquête est élevée, plus le risque de biais de non-réponse est grand. La qualité des estimations peut être réduite si un tel biais est observé. Le taux de réponse pondéré au questionnaire détaillé du Recensement de la population de 2016, qui était de 95,9 %, est beaucoup plus élevé que le taux de l'Enquête nationale auprès des ménages de 2011, qui était de 77,2 %.

Tableau 2
Taux d'imputation pondéré de la Base de données du couplage agriculture–population, Canada et provinces
Sommaire du tableau
Le tableau montre les résultats de Taux d’imputation pondéré de la Base de données du couplage agriculture–population, Canada et provinces. Les données sont présentées selon Provinces (titres de rangée) et Taux d’imputation pondéré de la Base de données du couplage agriculture–population, calculées selon pourcentage unités de mesure (figurant comme en-tête de colonne).
Provinces Taux d’imputation pondéré de la Base de données du couplage agriculture–population
%
Canada 0,9
Terre-Neuve-et-Labrador 5,5
Île-du-Prince-Édouard 2,0
Nouvelle-Écosse 1,0
Nouveau-Brunswick 1,6
Québec 1,2
Ontario 0,7
Manitoba 0,8
Saskatchewan 0,9
Alberta 0,9
Colombie-Britannique 0,9

Le taux d'imputation pondéré de la Base de données du couplage agriculture–population représente le pourcentage pondéré des ménages dans la base de données pour lesquels les données du questionnaire détaillé du Recensement de la population ont été imputées. Les taux d'imputation pondérés de la Base de données du couplage agriculture–population sont très faibles, ce qui réduit le risque de biais dû à l'imputation des données.

Échantillonnage et pondération

La Base de données du couplage agriculture–population contient des données agricoles (sur les exploitations agricoles et les exploitants agricoles) et des données démographiques (sur les personnes, les ménages, les familles de recensement et les familles économiques). Parce que seul un échantillon de ménages canadiens a été choisi pour recevoir le questionnaire détaillé du Recensement de la population, des poids ont été attribués aux enregistrements de la Base de données du couplage agriculture–population afin de représenter l'ensemble de la population d'exploitants agricoles. Des poids ont été calculés au niveau des fermes, des personnes, des ménages, des familles de recensement et des familles économiques.

Les poids ont été calculés de façon indépendante dans chaque province. Un poids initial a été obtenu pour chaque ménage pour la plupart des enregistrements du Recensement de la populationNote 1 en fonction du nombre de ménages dans une région infraprovinciale et du nombre de personnes ayant rempli le questionnaire détaillé du Recensement de la population. Des caractéristiques appelées « contraintes » ont ensuite été déterminées. Il s'agit de caractéristiques démographiques et agricoles de première importance pour les utilisateurs de données qui ont fait l'objet d'un dénombrement complet soit au Recensement de la population, soit au Recensement de l'agriculture. Un certain nombre de changements ont été apportés à l'ensemble de contraintes en 2016, y compris l'utilisation pour la première fois de dénombrements par catégorie de revenu total du ménage comme contrainte.

La manière d'utiliser ces contraintes a été modifiée en 2016. Dans le passé, un ensemble de poids de base cherchant à respecter toutes les contraintes dans la province était créé aux fins de la Base de données du couplage agriculture–population. Des facteurs de correction étaient ensuite appliqués à ces poids de base afin de créer neuf poids. Le poids à utiliser dans le cadre d'une analyse dépendait du type d'analyse réalisée. En 2016, au lieu d'un seul poids de base, cinq poids de base ont été créés (un au niveau de la ferme, un au niveau de la personne, un au niveau du ménage, un au niveau de la famille de recensement et un au niveau de la famille économique). Seules les contraintes associées au niveau d'un poids de base en particulier ont été utilisées lors du calcul dudit poids de base; par exemple, seules les contraintes au niveau du ménage ont servi à calculer le poids de base au niveau du ménage. Pour chaque province, une méthode appelée « régression généralisée » permettait de veiller à ce que les estimations de ces contraintes de la Base de données du couplage agriculture–population correspondent aux chiffres de population connus au niveau de la province. À partir de ces cinq poids de base, six poids ont été créés. Encore une fois, le poids à utiliser variait en fonction du type d'analyse.

Peu importe la région géographique, les totaux ou totaux partiels pondérés de la population, des ménages, des familles ou des exploitations agricoles peuvent différer des estimations semblables présentées dans les précédentes diffusions de données du Recensement de l'agriculture. Ce phénomène s'explique par le fait que dans le cadre du Recensement de l'agriculture, on a recueilli des données auprès de l'ensemble des exploitations agricoles, tandis que les estimations de la Base de données du couplage agriculture–population proviennent d'un échantillon. Les écarts relatifs aux variables hautement corrélées avec au moins l'une des variables utilisées pour définir une contrainte devraient, dans l'ensemble, être plutôt minces. Quant aux autres variables, les écarts dépendent de la relation avec la variable utilisée pour définir une contrainte et pourraient être considérables s'il n'existe aucune relation. Les estimations de la Base de données du couplage agriculture–population peuvent aussi différer de celles du Recensement de l'agriculture, car les logements collectifs (et les fermes associées à ces logements) sont exclus de la base de données.

Qualité et suppression des données

Les résultats de la Base de données du couplage agriculture–population peuvent être supprimés pour deux raisons : (1) protéger la confidentialité des données des répondants individuels et (2) limiter la diffusion des données de piètre qualité (notion représentée par l'expression « qualité des données » dans la suite du présent document).

La confidentialité des données des répondants est vérifiée au moyen de deux ensembles de règles. L'arrondissement aléatoire transforme les estimations des chiffres en chiffres arrondis de façon aléatoire en base 5. Selon cette technique, les chiffres de chaque tableau, y compris les totaux, sont arrondis de façon aléatoire à la hausse ou à la baisse jusqu'à un multiple de 5. Bien qu'elle assure une protection contre la divulgation, cette procédure n'ajoute pas d'erreur significative aux données. L'algorithme d'arrondissement aléatoire s'appuie sur une valeur de départ aléatoire pour générer la formule d'arrondissement pour les tableaux. Lorsque ces routines sont appliquées, la méthode utilisée pour générer la formule peut faire en sorte que les mêmes chiffres du même tableau soient arrondis à la hausse dans une exécution et à la baisse dans l'exécution suivante.

Certaines variables, comme celles qui se rapportent au revenu, peuvent présenter des réponses très variables et un plus grand risque de révéler des renseignements au sujet d'un répondant individuel lorsque certaines statistiques, comme les moyennes, sont calculées. Dans le cas des statistiques se fondant sur ces variables, un examen plus complexe de la confidentialité est réalisé. Ce dernier tient compte du nombre de contributeurs à une estimation et évalue si un seul contributeur influe sur l'estimation à un degré tel que la valeur de réponse approximative de ce facteur (ou d'autres contributeurs) pourrait être déterminée avec un degré élevé de confiance. Si l'analyse détermine qu'une estimation comporte un risque relatif à la confidentialité des données, cette estimation n'est pas publiée et est remplacée par un zéro dans le tableau publié.

En 2016, pour la première fois, la qualité des estimations tirées de la Base de données du couplage agriculture–population sera décrite au moyen du coefficient de variation (c.v.). Le c.v. d'une estimation est le ratio de l'estimation de l'erreur type et de l'estimation elle-même, exprimé en pourcentage. Plus le c.v. est faible, plus l'estimation est précise. Le c.v. est une mesure de variabilité intéressante puisqu'elle ne dépend pas de l'unité de mesure de l'estimation. Cela permet de comparer la précision d'estimations qui ont des unités de mesure différentes.

Pour faciliter l'interprétation, dans les tableaux publiés, la valeur du c.v. est remplacée par une lettre. Plus précisément, les estimations dont le c.v. est de 25 % à 50 % sont accompagnées de la lettre E en exposant, afin d'indiquer à l'utilisateur qu'il doit faire preuve de prudence lorsqu'il interprète ces résultats en raison du niveau modéré de variabilité qui leur est associé. Les estimations dont le c.v. est supérieur à 50 % ne sont pas publiées en raison des préoccupations qu'elles soulèvent en ce qui concerne la qualité des données. Elles sont remplacées par la lettre F dans les tableaux.

Tableau 3
Intervalles du coefficient de variation et lettres associées utilisées dans le cadre des estimations de la Base de données du couplage agriculture–population
Sommaire du tableau
Le tableau montre les résultats de Intervalles du coefficient de variation et lettres associées utilisées dans le cadre des estimations de la Base de données du couplage agriculture–population. Les données sont présentées selon Lettre (titres de rangée) et Intervalle du coefficient de variation et Interprétation de la qualité des données (figurant comme en-tête de colonne).
Lettre Intervalle du coefficient de variation Interprétation de la qualité des données
[Vide] De 0 à 25 % Acceptable ou supérieur
E (exposant) De 25 % à 50 % À utiliser avec prudence
F Plus de 50 % Trop peu fiable pour être publié

Note

Date de modification :