Guide des concepts et méthodes
5. Traitement des données

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Passer au texte

Début du texte

5.1 Saisie des données

Les intervieweurs saisissent directement les réponses aux questions de l’enquête au moment de l’interview à l’aide d’une version automatisée du questionnaire. L’utilisation d’un questionnaire automatisé réduit les délais et les coûts de traitement associés à la saisie des données, aux erreurs de transcription et à la transmission des données.

Une partie de la vérification des données a été faite directement au moment de l’interview. En particulier, lorsqu’une réponse semblait incohérente par rapport aux réponses précédentes ou qu’elle se situait à l’extérieur des valeurs attendues, des messages apparaissaient à l’écran de l’intervieweur, lui demandant de confirmer les réponses auprès du répondant et, au besoin, de modifier l’information.

5.2 Étapes de traitement des enquêtes sociales

Le traitement des données comporte une série d’étapes pour convertir les réponses au questionnaire électronique de leur format brut à une base de données conviviale de grande qualité comprenant un ensemble exhaustif de variables pour l’analyse. Plusieurs opérations sont exécutées pour supprimer les erreurs accidentelles dans les fichiers, vérifier rigoureusement les données pour en assurer la cohérence, coder les questions ouvertes, créer des variables utiles pour l’analyse des données et, enfin, systématiser et documenter les variables pour faciliter leur utilisation à des fins analytiques.

Dans le cadre de l’EAPA de 2017, un ensemble d’outils de traitement des enquêtes sociales élaboré à Statistique Canada et appelé « Environnement pour le traitement des enquêtes sociales » (ETES) a été utilisé. L’ETES fait intervenir des programmes du logiciel SAS, des applications personnalisées et des processus manuels pour l’exécution des étapes systématiques suivantes :

Étapes de traitement :

5.3 Réception des données brutes et épuration des dossiers

À partir des données brutes recueillies dans les applications du questionnaire électronique, un certain nombre de procédures d’épuration préliminaires ont été mises en œuvre pour chacun des dossiers individuels de l’EAPA de 2017. Cela comprenait la suppression de tous les identificateurs personnels des fichiers, comme les noms et les adresses, dans le cadre d’un ensemble rigoureux de mécanismes permanents visant à assurer la protection de la confidentialité des répondants. Les enregistrements en double ont été réduits à cette étape. Par ailleurs, dans le cadre des procédures d’épuration, tous les dossiers des répondants ont été révisés, afin d’assurer que chacun faisait partie du champ de l’enquête et avait un questionnaire suffisamment rempli. Il est important de souligner que les critères pour déterminer si un répondant faisait partie ou non du champ de l’enquête ont été appliqués avant tout contrôle ou imputation. Les critères particuliers pour déterminer si un répondant est un répondant final ou non à l’EAPA sont fournis ci-après.

5.3.1. Définition d’un répondant

Les personnes qui ne respectaient pas ces critères ont été retirées de la base de données. Conformément aux règles qui précèdent, tous les répondants « partiels » qui faisaient partie du champ de l’enquête selon la partie 1 de la définition, mais qui ne respectaient pas les exigences de contenu de la partie 2, ont fait partie de ceux retirés de la base de données finale (voir la section 6.4 du présent document pour obtenir plus de renseignements sur les répondants partiels).

5.4 Nouveau codage des variables et questions à réponses multiples

Cette étape du traitement a nécessité des changements dans les variables individuelles. Des variables pouvaient être supprimées, codées à nouveau, ajustées ou laissées telles quelles. Les modifications du formatage visaient à faciliter le traitement, ainsi que l’analyse des données par les utilisateurs. Parmi ces modifications figurait la conversion des questions à réponses multiples (questions « Choisissez toutes les réponses appropriées ») à des ensembles correspondants de variables à réponse unique, qui sont plus faciles à utiliser. Pour chaque catégorie de réponse associée à la question originale, une variable a été créée avec des valeurs de réponse « OUI/NON ». Un exemple est fourni ci-après.

Question originale à réponses multiples :

LW_Q05 - Comment vous y êtes-vous pris pour chercher un emploi?

  1. A contacté directement des employeurs possibles
  2. A cherché sur Internet
  3. Par l’intermédiaire d’amis ou de parents
  4. A placé une annonce dans le journal ou a répondu à une annonce
  5. A communiqué avec un centre d’emploi public (Centre Service Canada/Centre d’emploi du Canada, bureau de placement provincial)
  6. Babillard/radio communautaire
  7. A communiqué avec des organismes autochtones ou des organismes d’emploi autochtones
  8. Par l’intermédiaire de collègues de travail
  9. A été recommandé par un autre employeur
  10. A été recommandé par un syndicat
  11. Autre - Précisez

NSP, RF

Variables finales en format de réponse unique OUI/NON :

LW_Q05A - Comment vous y êtes-vous pris pour chercher un emploi?

- A contacté directement des employeurs possibles

  1. Oui
  2. Non

NSP, RF

LW_Q05B - Comment vous y êtes-vous pris pour chercher un emploi?

- A cherché sur Internet

  1. Oui
  2. Non

NSP, RF

LW_Q05C - Comment vous y êtes-vous pris pour chercher un emploi?

- Par l’intermédiaire d’amis ou de parents

  1. Oui
  2. Non

NSP, RF

LW_Q05K - Comment vous y êtes-vous pris pour chercher un emploi?

- Autre - Précisez

  1. Oui
  2. Non

NSP, RF

5.5 Enchaînements : cheminements de réponse, sauts valides et non-réponse à des questions

Un autre ensemble de procédures de traitement des données pour l’EAPA de 2017 comprenait la vérification des enchaînements des questions. Tous les cheminements de réponse et enchaînements de questions intégrés au questionnaire ont été vérifiés, afin d’assurer que l’univers ou la population cible pour chaque question avaient été saisis correctement lors du traitement. Une attention spéciale a été accordée aux distinctions entre les sauts valides et la non-réponse. Ces concepts sont expliqués ci-après, afin d’aider les utilisateurs à mieux comprendre les univers des questions, ainsi que les statistiques issues des variables de l’EAPA.

Réponse

Réponse directement pertinente au contenu de la question qui peut être classée en catégories de réponses établies d’avance, y compris « Autre — Précisez ».

Saut valide

Indique que la question a été sautée parce qu’elle ne s’appliquait pas à la situation du répondant, compte tenu des réponses valides à une question précédente. Dans de tels cas, le répondant n’est pas considéré comme faisant partie de la population cible ou de l’univers pour cette question. Comme il est noté ci-après, lorsqu’une question a été sautée en raison d’un cheminement indéterminé (c.-à-d. un « Ne sais pas » ou un « Refus » à une question précédente, qui a entraîné le saut), un code « Non déclaré » est attribué au répondant pour cette question.

Ne sais pas

Le répondant n’a pas été en mesure de fournir une réponse pour une ou plusieurs raisons (parce qu’il ne se rappelait pas ou parce qu’il répondait pour quelqu’un d’autre, par exemple).

Refus

Le répondant a refusé de répondre, peut-être en raison de la nature délicate de la question.

Non déclaré

Ceci indique que la réponse à la question est manquante et que le cheminement du répondant est indéterminé, par exemple, lorsqu’un répondant n’a pas répondu à la question filtre précédente ou lorsqu’une incohérence a été trouvée dans une série de réponses.

Des codes spéciaux ont été désignés pour chacun de ces types de réponses, afin de faciliter la reconnaissance et l’analyse des données par l’utilisateur. Par exemple, le dernier chiffre des codes « saut valide » est « 6 », et les chiffres précédents sont des « 9 » (p. ex. le code serait « 996 » pour une variable à trois chiffres). Toutes les réponses « Ne sais pas » se terminent par un « 7 », précédé de « 9 » (p. ex. « 997 »). Les refus se terminent par un « 8 », précédé de « 9 » (p. ex. « 998 »); et les valeurs « Non déclaré » se terminent par un 9, précédé aussi de « 9 » (p. ex. « 999 »). Par ailleurs, les dossiers de ceux qui ont choisi de ne pas partager leurs données du recensement comportent des codes de réserve distincts. Ces codes de réserve sont différents pour chaque variable, selon le nombre de catégories comprises dans la variable et la longueur de la variable.

5.6 Codage

Questions « Autre — Précisez »

Le traitement des données comprend aussi le codage des réponses aux questions « Autre — Précisez », aussi appelées « réponses écrites ». Pour la plupart des questions du questionnaire de l’EAPA, des catégories de réponses codées au préalable ont été fournies et les intervieweurs ont été formés pour attribuer les réponses des répondants à la catégorie appropriée. Toutefois, lorsque la réponse d’un répondant ne pouvait être facilement attribuée à une catégorie existante, de nombreuses questions ont aussi permis à l’intervieweur d’entrer une longue réponse écrite dans la catégorie « Autre — Précisez ».

Toutes les questions comportant des catégories « Autre — Précisez » ont fait l’objet d’un examen minutieux pendant le traitement. Suite à un examen qualitatif des types de réponses écrites fournies, des lignes directrices de codage ont été élaborées pour chaque question. À partir de ces lignes directrices de codage, plusieurs réponses écrites fournies ont été codées à nouveau dans l’une des catégories existantes. Les réponses qui étaient uniques et différentes des catégories existantes ont été conservées comme « Autre ». Pour certaines questions, une ou plusieurs nouvelles catégories ont été créées lorsqu’un nombre suffisant de réponses le justifiait. Dans le cas des questions où les réponses « Autre — Précisez » constituaient moins d’environ 5 % des réponses globales à la question, le codage n’a pas été effectué et les réponses sont demeurées dans la catégorie « Autre ».

Environ 18 000 réponses pour 31 questions ont été consignées dans la catégorie « Autre – Précisez » et passées en revue pour le codage Celles-ci seront prises en compte lorsque les catégories de réponses seront définies pour les cycles futurs de l’enquête.

Questions ouvertes et classifications types

Quelques questions du questionnaire de l’EAPA de 2017 ont été consignées par les intervieweurs dans un format complètement ouvert. Cela comprenait des questions liées à la profession du répondant et à l’industrie dans laquelle il travaillait, ainsi qu’à son principal domaine d’études postsecondaires, le cas échéant. Ces réponses ont été codées à partir d’une combinaison de procédures de codage automatisées et interactives. Des systèmes de classification uniformisés ont servi à coder ces réponses. L’annexe C comporte des détails au sujet de ces classifications.

Une classification uniformisée a aussi servi à coder les langues autochtones parlées ou comprises par les répondants, ainsi que la première langue apprise dans l’enfance. Dans le cas des langues, un menu déroulant exhaustif de langues a été fourni aux intervieweurs pour effectuer un choix, mais des réponses écrites ont aussi été saisies au besoin. Dans l’ensemble, 67 catégories de langues autochtones ont servi à coder les données sur la langue de l’EAPA.

Dans le cadre de l’EAPA de 2017, une série d’imputations importantes ont été effectuées en rapport avec les classifications de l’identité autochtone. Par exemple, les personnes pour lesquelles des données étaient manquantes aux questions ID_Q10 sur le groupe d’identité autochtone, ID_Q25 sur les Indiens inscrits, ou ID_Q30 sur l’appartenance à une Première Nation ou à une bande indienne ont reçu des valeurs imputées en fonction de leurs réponses au recensement. Dans le cas des personnes qui se sont déclarées comme étant Autochtones à la question ID_Q05 de l’EAPA, mais qui n’ont pas déclaré de groupe autochtone particulier à la question ID_Q10, une imputation a aussi été effectuée en fonction de leur réponse au recensement.

Enfin, même si toutes ces vérifications ont été effectuées systématiquement à l’égard de tous les sujets au moyen de contrôles programmés à l’ordinateur, certains cas de combinaisons très complexes d’information ont été passés en revue et corrigés manuellement.

5.7 Contrôle et imputation

Après l’étape du codage dans le traitement, une série de contrôles personnalisés ont été effectués à l’égard des données. Ils comprenaient des vérifications de la validité des variables elles-mêmes et entre elles, afin de déterminer les lacunes, les incohérences, les valeurs aberrantes extrêmes et d’autres problèmes liés aux données. Pour résoudre les données problématiques déterminées dans le cadre des contrôles, des corrections ont été apportées selon des règles de contrôle logique. Dans certains cas, les données correspondantes ont été tirées des réponses des répondants du recensement. On appelle cela l’imputation.

Un exemple de vérification de la validité dans une question est la variable d’emplois multiples se rapportant au nombre d’emplois multiples occupés par un répondant au cours de la dernière semaine, ce qui permettait à un intervieweur de consigner au moins 2 emplois et au plus 20 emplois. Pour supprimer les réponses aberrantes qu’on croyait invalides, un contrôle a été intégré pour faire en sorte que le nombre d’emplois multiples déclarés ne dépasse pas 20.

Par ailleurs, de nombreux contrôles de la cohérence entre les questions ont été exécutés afin d’éviter les contradictions. Par exemple, une personne qui n’avait pas déclaré avoir fréquenté un établissement d’enseignement postsecondaire particulier, comme une université, une école de métiers, un collège, un cégep ou un autre établissement non universitaire, puis avait déclaré par la suite tenter d’obtenir un certificat, un diplôme ou un grade d’un de ces établissements, a été considérée comme ayant fréquenté ce type d’établissement. La réponse à la question précédente a été modifiée de « non » à « oui » pour le type particulier d’établissement pour lequel le contrôle était requis. 

Dans le cadre de l’EAPA de 2017, une série d’imputations importantes a été effectuée en rapport avec les classifications de l’identité autochtone. Ces imputations étaient les suivantes :

  1. Tout d’abord, les personnes pour lesquelles des données étaient manquantes aux questions ID_Q25 sur le statut d’Indien inscrit ou ID_Q30 sur l’appartenance à une Première Nation ou à une bande indienne, ont reçu des valeurs imputées en fonction de leurs réponses aux questions équivalentes du recensement;
  2. Ensuite, les personnes pour lesquelles des données étaient manquantes à la question ID_Q05 sur la déclaration volontaire des Autochtones n’auraient pas eu à répondre à la question suivante ID_Q10 sur le groupe d’identité autochtone. En raison de la définition de répondant à l’EAPA, ces répondants auraient dû s’identifier soit comme Indien inscrit à la question ID_Q25 soit comme membre d’une Première Nation ou d’une bande indienne à la question ID_Q30 afin d’être considérés comme un répondant à l’EAPA. Si ces répondants s’étaient identifiés en tant qu’Autochtones dans le cadre du recensement, alors ils avaient été imputés comme ayant une identité autochtone à la question ID_Q05 et leurs groupes d’identité autochtone de la question ID_Q10 ont été imputés de leur groupe d’identité dans le cadre du recensement;
  3. Ensuite, pour les personnes pour lesquelles des données étaient manquantes à la question ID_Q10, qui s’étaient néanmoins identifiées à l’un des groupes d’identité autochtone dans le cadre du recensement, les valeurs ont été imputées à la question ID_Q10 en fonction de leur groupe d’identité dans le cadre du recensement;
  4. Ensuite, les répondants qui s’étaient identifiés comme Autochtones à la question ID_Q05, mais pour lesquels des données étaient manquantes à la question ID_Q10, ne s’étaient pas identifiés comme étant Indiens inscrits ni comme membres d’une Première Nation ou d’une bande indienne, et ne s’étaient pas identifiés comme étant des Autochtones dans le cadre du recensement, mais qui s’étaient identifiés comme ayant une ascendance autochtone dans le cadre du recensement, avaient reçus des valeurs imputées pour la question ID_Q10 à partir de leur groupe d’ascendance autochtone dans le cadre du recensement;
  5. Enfin, les personnes pour lesquelles des données étaient manquantes aux questions ID_Q05 ou ID_Q10, mais qui s’étaient identifiées comme Indiens inscrits à la question ID_Q25 ou comme membres d’une Première Nation ou d’une bande indienne à la question ID_Q30, et qui ne s’étaient pas identifiées comme Autochtones dans le cadre du recensement, ont été imputées comme n’ayant pas l’identité autochtone à la question ID_Q05. Ces personnes sont toujours considérées comme des répondants à l’EAPA en raison de leurs réponses affirmatives aux questions ID_Q25 ou ID_Q30 et de la définition de répondant à l’EAPA, et, dans la variable dérivée de l’identité autochtone, elles sont regroupées comme « réponses autochtones non comprises ailleurs».

Enfin, même si toutes ces vérifications ont été effectuées systématiquement à l’égard de tous les sujets au moyen de contrôles programmés à l’ordinateur, certains cas de combinaisons très complexes d’information ont été passés en revue et corrigés manuellement.

5.8 Couplage des variables dérivées aux données du recensement

Afin de faciliter une analyse plus approfondie du riche ensemble de données de l’EAPA, environ 240 variables dérivées ont été créées en regroupant des questions du questionnaire. Des variables dérivées (VD) ont été créées pour les principaux domaines de contenu. En outre, environ 230 variables du Recensement de 2016 ont été couplées au fichier analytique final de l’EAPA de 2017.

Quelques VD simples consistaient à fusionner des catégories pour créer des catégories plus larges. Dans d’autres cas, deux variables ou plus ont été regroupées pour créer une variable nouvelle ou plus complexe, utile pour les analystes des données. Certaines des VD étaient fondées sur des variables couplées du recensement, y compris les niveaux géographiques multiples du recensement et les régions inuites. L’ascendance autochtone a aussi été tirée du recensement, étant donné qu’elle n’est pas mesurée directement dans l’EAPA de 2017. Les données d’un répondant ayant refusé le couplage avec le recensement sont supprimées des variables du recensement et des variables fondées sur le recensement.

Pour la plupart des VD, il y a une catégorie résiduelle étiquetée « Non déclaré » pour les cas où les réponses aux VD des questions sources ne satisfont pas aux conditions de placer un répondant dans l’une ou l’autre des catégories valides de la VD. Dans bien des cas, mais pas tous, un répondant est inclus dans la catégorie « Non déclaré » si l’une ou l’autre des parties de l’équation n’avait pas reçu de réponse (c’est-à-dire si l’une ou l’autre des questions utilisées pour la VD avait été codée « Ne sais pas », « Refus » ou « Non déclaré »). Dans de tels cas, le code attribué à la VD a été étiqueté « Non déclaré ».

La plupart des noms des VD commencent par le caractère « D ». Les VD géographiques font exception, étant donné qu’elles reflètent les noms des variables du recensement correspondantes. Les autres exceptions sont les VD qui indiquent les niveaux 1, 2 et 3 du Système de classification des industries de l’Amérique du Nord (SCIAN) du Canada de 2017, selon les réponses aux questions sur l’industrie de l’EAPA, et les niveaux 1, 2, 3 et 4 de la Classification nationale des professions (CNP) de 2016, selon les réponses aux questions sur les professions de l’EAPA. Pour toutes les variables couplées du recensement, le nom de la variable du recensement a été préservé dans la plus large mesure possible dans la base de données de l’EAPA. Il y a eu certaines exceptions, car les noms des variables de l’EAPA se limitent à huit caractères, alors que les noms des variables du recensement dépassent parfois cette limite. Dans ces cas, une note indiquant quels noms de variables ont été raccourcis est ajoutée au dictionnaire de données.

Le dictionnaire de données de l’EAPA de 2017 identifie de façon détaillée quelles sont les VD et précise à partir de quelles variables sources elles ont été dérivées. Les grandes lignes des VD figurent par thème à l’annexe A, avec d’autres indicateurs de l’enquête. Une liste complète des variables couplées du recensement et de leurs notes complémentaires figure dans le dictionnaire de données de l’EAPA de 2017 qui accompagne le fichier analytique de l’EAPA.

5.9 Création de fichiers de données finaux et d’un dictionnaire de données

Quatre fichiers de données finaux sont créés au moment du traitement des données :

Le fichier de traitement final est un fichier interne qui comprend un certain nombre de variables temporaires utilisées exclusivement pour le traitement. Le fichier analytique, le FMGD et les fichiers de partage avec les Inuits sont des fichiers de diffusion qui font l’objet d’un traitement additionnel aux fins de la diffusion. Les fichiers de diffusion doivent être distribués à divers moments suivant le jour de la diffusion des données de l’EAPA le 26 novembre 2018.

Le fichier analytique est distribué dans les CDR partout au Canada, mais est accessible uniquement pour les chercheurs qui répondent à certaines exigences. Le fichier analytique est aussi utilisé à Statistique Canada pour produire des tableaux de données selon les demandes des clients. Le FMGD est élaboré en vue d’une distribution publique plus large. Les fichiers de partage avec les Inuits sont produits en conformité avec les ententes de partage des données conclues avec les régions inuites : Nunatsiavut, Nunavik, Nunavut et la région inuvialuite. Pour tous ces fichiers de diffusion, de nombreuses mesures sont prises pour assurer la confidentialité des répondants.

Afin de transformer le fichier de traitement final épuré en fichier analytique pour les chercheurs, un certain nombre d’étapes ont été suivies. Tout d’abord, une série de mesures ont été appliquées pour améliorer la protection de la confidentialité des répondants. Ensuite, des poids-personnes ont été ajoutés au fichier. Enfin, toutes les variables temporaires ou variables utilisées exclusivement pour le traitement ont été supprimées du fichier de traitement final.

Le fichier analytique de l’EAPA de 2017 s’accompagne du cliché d’enregistrement, de la syntaxe SAS, SPSS et Stata servant à télécharger le fichier, ainsi que de métadonnées sous forme d’un dictionnaire de données qui décrit chaque variable et fournit des fréquences pondérées et non pondérées.

Afin d’assurer la non-divulgation des données confidentielles, le niveau de détail du FMGD n’est pas aussi précis que celui des fichiers analytiques conservés par Statistique Canada. Des mesures sont prises pour empêcher que l’on reconnaisse des répondants comportant des combinaisons de caractéristiques potentiellement identifiables. Ces mesures de protection englobent la limitation des régions géographiques comprises dans le fichier, des ajustements aux poids d’enquête, l’examen des chevauchements avec d’autres FMGD publiés, l’exclusion de variables, le regroupement de catégories pour certaines variables, le plafonnement de certaines valeurs numériques extrêmes, ainsi que la détermination des dossiers uniques à risque et des occurrences rares.


Date de modification :