5. Traitement des données

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

5.1 Saisie des données

Les intervieweurs saisissent directement les réponses aux questions de l’enquête au moment de l’interview, à l’aide d’une version automatisée du questionnaire. L’utilisation d’un questionnaire automatisé réduit les délais et les coûts de traitement associés à la saisie des données, aux erreurs de transcription et à la transmission des données.

Une partie du contrôle a été fait directement au moment de l’interview. De façon plus particulière, lorsqu’une réponse semblait incohérente par rapport aux réponses précédentes ou se situait à l’extérieur des valeurs attendues, on demandait à l’intervieweur, grâce à des messages à l’écran, de confirmer les réponses auprès du répondant et, au besoin, de modifier l’information.

5.2 Étapes de traitement des enquêtes sociales

Le traitement des données comportent une série d’étapes pour convertir les réponses au questionnaire électronique de leur format brut à une base de données conviviale de grande qualité comprenant un ensemble exhaustif de variables pour l’analyse. Plusieurs opérations sont exécutées pour supprimer les erreurs accidentelles dans les fichiers, vérifier rigoureusement les données pour en assurer la cohérence, coder les questions ouvertes, créer des variables utiles pour l’analyse des données et, enfin, systématiser et documenter les variables pour faciliter leur utilisation à des fins analytiques.

Dans le cadre de l’Enquête auprès des peuples autochtones (EAPA) de 2012, on a utilisé un nouvel ensemble d’outils de traitement des enquêtes sociales élaboré à Statistique Canada et appelé « Environnement pour le traitement des enquêtes sociales » (ETES). L’ETES fait intervenir des programmes SAS (Statistical Analysis System/système d’analyse statistique), des applications personnalisées et des processus manuels pour l’exécution des étapes systématiques suivantes :

Étapes de traitement :

  • Réception des données brutes
  • Épuration
  • Nouveau codage
  • Enchaînements
  • Codage
  • Contrôle et imputation
  • Variables dérivées
  • Création d’un fichier de traitement final
  • Création de fichiers de diffusion

5.3 Réception des données brutes et épuration des dossiers

À partir des données brutes recueillies dans les applications du questionnaire électronique de l’EAPA de 2012, un certain nombre de procédures d’épuration préliminaires ont été mises en œuvre pour chacun des dossiers individuels. Cela comprenait la suppression de tous les identificateurs personnels des fichiers, comme les noms et les adresses, dans le cadre d’un ensemble rigoureux de mécanismes permanents visant à assurer la protection de la confidentialité des répondants. Les enregistrements en double ont été réduits à cette étape. Par ailleurs, dans le cadre des procédures d’épuration, on a passé en revue tous les dossiers des répondants, afin de s’assurer que chacun faisait partie du champ de l’enquête et avait un questionnaire suffisamment rempli. (À noter que les critères pour déterminer si un répondant fait partie ou non du champ de l’enquête ont été appliqués avant tout contrôle ou imputation). Les critères particuliers pour déterminer qui est un répondant final à l’EAPA et qui n’est pas un répondant final sont fournis ci‑après.

5.3.1 Définition d’un répondant

  • Pour être dans le champ de l’enquête, les répondants devaient être âgés de 6 ans et plus au 1er février 2012 et respecter au moins un des critères d’identité autochtone (voir la section 2.2 pour les critères complets).
  • Pour que leur questionnaire soit « complet », les répondants âgés de 6 à 14 ans devaient avoir fourni des réponses valides (c.-à-d. pas de « Ne sais pas » ou de « Refus ») à des questions clés particulières dans les domaines de l’éducation ou de la santé.
  • Pour que leur questionnaire soit « complet », les répondants de 15 ans et plus devaient avoir fourni des réponses valides (c.-à-d. pas de « Ne sais pas » ou de « Refus ») à des questions clés particulières relatives à la scolarité ou au travail et à la santé.

Les personnes qui ne respectaient pas ces critères ont été retirées de la base de données. Conformément aux règles qui précèdent, tous les répondants « partiels » qui faisaient partie du champ de l’enquête selon la partie 1 de la définition, mais qui ne respectaient pas les exigences de contenu de la partie 2 ou de la partie 3 de la définition, ont fait partie de ceux retirés de la base de données finale. Veuillez vous reporter à la section 6.4 du présent document pour plus de renseignements sur les répondants partiels.

5.4 Nouveau codage des variables et questions à réponses multiples

Cette étape du traitement a nécessité des changements dans les variables individuelles. Des variables pouvaient être supprimées, codées à nouveau, ajustées ou laissées telles quelles. Les modifications du formatage visaient à faciliter le traitement, ainsi que l’analyse des données par les utilisateurs. Parmi ces modifications figurait la conversion des questions à réponses multiples (questions « Choisissez toutes les réponses appropriées ») à des ensembles correspondants de variables à réponse unique, qui sont plus faciles à utiliser. Pour chaque catégorie de réponse associée à la question originale, une variable a été créée avec des valeurs de réponse de oui/non. Un exemple est fourni ci-après.

Question originale à réponses multiples :

ED4_Q11AA - Pour quelles raisons n’avez-vous pas terminé vos études postsecondaires?

  • INTERVIEWEUR : Choisissez toutes les réponses appropriées.
  • 01 Grossesse/S’occuper de son (ses) enfant(s)
  • 02 Autres responsabilités familiales
  • 03 Maladie/Incapacité
  • 04 Raisons financières (pas assez d’argent)
  • 05 Perte d’intérêt/Manque de motivation
  • 06 A obtenu un emploi/Voulait travailler
  • 07 Trop âgé(e) ou trop tard maintenant
  • 08 Cours trop difficiles/Mauvais résultats
  • 09 Trop difficile d’être loin de la maison
  • 10 Préjugés et racisme
  • 11 Déménagement
  • 12 Autre – Précisez
  • NSP, RF

Variables finales en format de réponse unique/oui/non :

ED4_Q11AA - Pour quelles raisons n’avez-vous pas terminé vos études postsecondaires?
– Grossesse/S’occuper de son (ses) enfant(s)

  • 1 Oui
  • 2 Non
  • NSP, RF

ED4_Q11AB - Pour quelles raisons n’avez-vous pas terminé vos études postsecondaires?
– Autres responsabilités familiales

  • 1 Oui
  • 2 Non
  • NSP, RF

ED4_Q11AC - Pour quelles raisons n’avez-vous pas terminé vos études postsecondaires?
– Maladie/Incapacité

  • 1 Oui
  • 2 Non
  • NSP, RF
  • ... questions additionnelles Oui-Non pour chaque catégorie de réponse, comme indiqué, de « Raisons financières (pas assez d’argent) » à « Déménagement »... et en incluant la dernière catégorie :

ED4_Q11AL - Pour quelles raisons n’avez-vous pas terminé vos études postsecondaires?
– Autre - Précisez

  • 1 Oui
  • 2 Non
  • NSP, RF

5.5 Enchaînements : cheminements de réponse, sauts valides et non-réponse à des questions

Un autre ensemble de procédures de traitement des données pour l’EAPA de 2012 comprenait la vérification des enchaînements des questions. Tous les cheminements de réponse et enchaînements de questions intégrés au questionnaire ont été vérifiés, afin de s’assurer que l’univers ou la population cible pour chaque question avaient été saisis correctement lors du traitement. Une attention spéciale a été accordée aux distinctions entre les sauts valides et la non-réponse, une distinction importante pour l’analyse statistique. Ces concepts sont expliqués ci-après, afin d’aider les utilisateurs à mieux comprendre les univers des questions, ainsi que les statistiques issues des variables de l’EAPA.

Réponse – réponse directement pertinente au contenu de la question qui peut être catégorisée en catégories de réponses préétablies, y compris « Autre – Précisez ».

Saut valide – indique que la question a été sautée parce qu’elle ne s’appliquait pas à la situation du répondant, compte tenu des réponses valides aux questions précédentes. Dans de tels cas, le répondant n’est pas considéré comme faisant partie de la population cible ou de l’univers pour cette question. Comme il est noté ci-après, lorsqu’une question a été sautée en raison d’un cheminement indéterminé (c.-à-d. un « Ne sais pas » ou un « Refus » à une question précédente, qui a entraîné le saut), un code « Non déclaré » est attribué au répondant pour cette question.

Ne sais pas – le répondant n’a pas été en mesure de fournir une réponse pour une ou plusieurs raisons (parce qu’il ne se rappelait pas ou parce qu’il répondait pour quelqu’un d’autre, par exemple).

Refus – le répondant a refusé de répondre, peut-être en raison de la nature délicate de la question.

Non déclaré – ceci indique que la réponse à la question est manquante et que le cheminement du répondant est indéterminé, par exemple, lorsqu’un répondant n’a pas répondu à la question filtre précédente ou lorsqu’une incohérence a été trouvée dans une série de réponses.

Des codes spéciaux ont été désignés pour chacun de ces types de réponses, afin de faciliter la reconnaissance et l’analyse des données par l’utilisateur. Par exemple, le dernier chiffre des codes « saut valide » est « 6 », et les chiffres précédents « 9 » (p. ex. le code serait « 996 » pour une variable à trois chiffres). Toutes les réponses « Ne sais pas » se terminent par un « 7 », précédé par des « 9 » (p. ex. « 997 »). Les refus se terminent par un « 8 », précédé par des « 9 » (p. ex. « 998 »); et les valeurs « Non déclaré » se terminent par un 9, précédé aussi par des « 9 » (p. ex. « 999 »).

5.6 Codage

5.6.1 Questions « Autre – Précisez »

Le traitement des données comprend aussi le codage des réponses aux questions « Autre – Précisez », aussi appelées « réponses en toutes lettres ». Pour la plupart des questions du questionnaire de l’EAPA, des catégories de réponses codées au préalable ont été fournies, et les intervieweurs ont été formés pour attribuer les réponses des répondants à la catégorie appropriée. Toutefois, lorsque la réponse d’un répondant ne pouvait être facilement attribuée à une catégorie existante, de nombreuses questions ont aussi permis à l’intervieweur d’entrer une réponse en toutes lettres dans la catégorie « Autre – Précisez ».

Toutes les questions comportant des catégories « Autre – Précisez » ont fait l’objet d’un examen étroit pendant le traitement. Par suite d’un examen qualitatif des types de réponses en toutes lettres fournies, des lignes directrices de codage ont été élaborées pour chaque question. À partir de ces lignes directrices de codage, nombre des réponses en toutes lettres fournies ont été codées à nouveau dans l’une des catégories existantes énumérées au préalable. Les réponses qui étaient uniques et différentes des catégories existantes ont été conservées comme « Autre ». Pour certaines questions, une ou plusieurs nouvelles catégories ont été créées lorsqu’un nombre suffisant de réponses le justifiait. Dans le cas des questions où les réponses « Autre – Précisez » constituaient moins de 5 % des réponses globales à la question, on n’a pas procédé au codage et les réponses sont demeurées dans la catégorie « Autre ».

Environ 58 000 réponses pour 78 questions ont été consignées dans la catégorie « Autre – Précisez » et passées en revue pour le codage. L’annexe B résume les autres catégories ajoutées pour l’EAPA de 2012. Celles-ci seront prises en compte lorsque l’on précisera davantage les catégories de réponses pour les cycles futurs de l’enquête.

5.6.2 Questions ouvertes et classifications types

Quelques questions du questionnaire de l’EAPA de 2012 ont été consignées par les intervieweurs dans un format complètement ouvert. Cela comprenait des questions liées à la profession du répondant et à l’industrie dans laquelle il travaillait, ainsi qu’à son principal domaine d’études postsecondaires, le cas échéant. Ces réponses ont été codées à partir d’une combinaison de procédures de codage automatisées et interactives. Des systèmes de classification uniformisés ont servi à coder ces réponses. L’annexe C comporte des détails au sujet de ces classifications.

Une classification uniformisée a aussi servi à coder les langues autochtones que les répondants parlaient ou comprenaient, ainsi que la première langue apprise dans l’enfance. Dans le cas des langues, on a fourni aux intervieweurs un menu déroulant exhaustif de langues pour effectuer un choix, mais des réponses en toutes lettres ont aussi été saisies au besoin. Dans l’ensemble, 51 catégories de langues autochtones ont servi à coder les données sur la langue de l’EAPA. Pour plus de détails sur le système de classification utilisé pour les langues autochtones, voir l’annexe C.

Le codage de toutes les classifications a fait intervenir des procédures de codage et de contrôle de la qualité éprouvées, ainsi que d’autres procédures de vérification du traitement.

5.7 Contrôle et imputation

Après l’étape du codage dans le traitement, une série de contrôles personnalisés ont été effectués à l’égard des données. Ils comprenaient des vérifications de la validité des variables elles-mêmes et entre elles, afin de déterminer les lacunes, les incohérences, les valeurs aberrantes extrêmes et d’autres problèmes liés aux données. Pour résoudre les données problématiques déterminées dans le cadre des contrôles, des corrections ont été apportées selon des règles de contrôle logique. Dans certains cas, les données correspondantes ont été tirées des réponses des répondants de l’Enquête nationale auprès des ménages (ENM). On appelle cela l’imputation.

Un exemple de contrôle de validité pour une question est la variable du logement liée au nombre de pièces dans le logement, qui permettait à un intervieweur d’inscrire jusqu’à 95 pièces. Pour supprimer les réponses aberrantes dont on croyait qu’elles étaient invalides, un contrôle a été intégré pour faire en sorte que le nombre de pièces déclarées dans le logement ne dépasse pas 20. Par ailleurs, de nombreux contrôles de la cohérence entre les questions ont été exécutés en rapport avec les variables de l’éducation, afin d’éviter les contradictions dans les profils d’éducation. Par exemple, une personne qui n’avait pas déclaré avoir fréquenté un établissement d’enseignement postsecondaire particulier, comme une université, une école de métiers, un collège, un cégep ou un autre établissement non universitaire, puis avait déclaré par la suite tenter d’obtenir un certificat, un diplôme ou un grade d’un de ces établissements, a été considérée comme ayant fréquenté ce type d’établissement. La réponse à la question précédente a été modifiée de « non » à « oui » pour le type particulier d’établissement pour lequel le contrôle était requis.

Dans le cadre de l’EAPA de 2012, une série d’imputations importantes ont été effectuées en rapport avec les classifications de l’identité autochtone. Par exemple, les personnes pour lesquelles des données étaient manquantes pour les questions ID_Q02 sur le groupe d’identité autochtone, ID_Q03 sur le statut d’Indien inscrit, ou ID_Q05 sur l’appartenance à une Première Nation ou à une bande indienne ont reçu des valeurs imputées sur la base de leurs réponses à l’ENM. Dans le cas de celles qui se sont déclarées comme Autochtones à la question ID_Q01 de l’EAPA, mais qui n’ont pas déclaré de groupe autochtone particulier à la question ID_Q02, une imputation a aussi été effectuée sur la base de la réponse à l’ENM. En outre, une imputation a été effectuée pour une personne qui n’avait pas été identifiée comme appartenant à un groupe autochtone, mais qui s’était identifiée comme 1) un Indien avec statut, 2) un Indien inscrit en vertu de la loi C-31 ou de la loi C-3, ou 3) un membre d’une Première Nation ou d’une bande indienne – ces répondants ont été imputés à Premières Nations (Indiens de l’Amérique du Nord).

Enfin, même si toutes ces vérifications ont été effectuées systématiquement à l’égard de tous les sujets au moyen de contrôles programmés à l’ordinateur, certains cas de combinaisons très complexes d’information ont été passés en revue et corrigés manuellement.

5.8 Variables dérivées et couplage de l’ENM

Afin de faciliter une analyse plus approfondie du riche ensemble de données de l’EAPA, plus de 500 variables dérivées ont été créées en combinant des questions du questionnaire. Des variables dérivées (VD) ont été créées pour les principaux domaines de contenu. En outre, plus de 100 variables de l’ENM ont été couplées au fichier analytique final de l’EAPA pour 2012.

Nombre des variables dérivées étaient simples et comprenaient uniquement la combinaison de questions équivalentes, par exemple, celles concernant les cheminements en matière d’éducation. D’autres variables dérivées simples comprenaient le regroupement de catégories en catégories plus larges. Dans d’autres cas, deux variables ou plus ont été combinées pour créer une variable nouvelle ou plus complexe, utile pour les analystes des données. Certaines des variables dérivées étaient fondées sur des variables couplées de l’ENM, y compris les niveaux géographiques multiples de l’ENM et les régions inuites. L’ascendance autochtone a aussi été tirée de l’ENM, étant donné qu’elle n’est pas mesurée directement dans l’EAPA de 2012.

Au moment de l’élaboration des variables dérivées, une catégorie de réponse valide n’a généralement pas été attribuée à un répondant pour une variable dérivée donnée si l’une ou l’autre des parties de la question n’avait pas reçu de réponse (c’est-à-dire si l’une ou l’autre des questions utilisées pour la variable dérivée avait été codée « Ne sais pas », « Refus » ou « Non déclaré »). Dans ces cas, le code attribué à la variable dérivée a été étiqueté « Non déclaré ».

La plupart des noms des variables dérivées comportent un « D » comme premier caractère. Les VD géographiques font exception, étant donné qu’elles rendent compte des noms de variables correspondants de l’ENM. Pour toutes les variables couplées de l’ENM, le nom de la variable de l’ENM a été préservé dans la plus large mesure possible dans la base de données de l’EAPA. Certaines exceptions se sont appliquées, étant donné que les noms de variables de l’EAPA se limitent à huit caractères, tandis que les noms de variables de l’ENM dépassent parfois huit caractères.

Le dictionnaire de données de l’EAPA de 2012 indique de façon détaillée les variables dérivées et fournit des renseignements sur la façon dont les dérivations ont été effectuées. Les grandes lignes des VD figurent par thème dans l’annexe A, avec d’autres indicateurs de l’enquête. Une liste complète des variables couplées de l’ENM et de leurs notes connexes figure dans le dictionnaire de données de l’EAPA de 2012, qui accompagne le fichier analytique de l’EAPA.

5.9 Création de fichiers de données finaux et d’un dictionnaire de données

Quatre fichiers de données finaux ont été créés au moment du traitement des données :

  • Fichier de traitement final
  • Fichier analytique utilisé dans les centres de données de recherche
  • Fichier de microdonnées à grande diffusion (FMGD)
  • Fichiers de partage avec les Inuit, conformément à l’entente de partage de données avec les quatre régions inuites.

Le fichier de traitement final est un fichier interne qui comprend un certain nombre de variables temporaires utilisées exclusivement pour le traitement. Le fichier analytique, le FMGD et le fichier de partage avec les Inuit sont des fichiers de diffusion qui font l’objet d’un traitement additionnel aux fins de la diffusion. Les fichiers de diffusion doivent être distribués à divers moments suivant le jour de diffusion des données de l’EAPA, soit le 25 novembre 2013 (voir le chapitre 9 pour obtenir des descriptions plus détaillées et des renseignements sur la diffusion).

Le fichier analytique est distribué dans les centres de données de recherche au Canada, mais est accessible uniquement pour les chercheurs qui répondent à certaines exigences. Le fichier analytique est aussi utilisé à Statistique Canada pour produire des tableaux de données par suite de demandes des clients. Le FMGD est élaboré en vue d’une distribution publique plus large. Les fichiers de partage avec les Inuit sont produits en conformité avec les ententes de partage des données conclues avec les régions inuites : Nunatsiavut, Nunavik, Nunavut et région inuvialuite. Pour tous ces fichiers de diffusion, de nombreuses mesures ont été prises pour assurer la confidentialité des répondants.

Afin de transformer le fichier de traitement final épuré en fichier analytique pour les chercheurs, un certain nombre d’étapes ont été suivies. Tout d’abord, une série de mesures ont été appliquées pour améliorer la protection de la confidentialité des répondants. En deuxième lieu, des « poids-personnes » ont été ajoutés au fichier. La pondération est décrite de façon plus détaillée dans la section 6. Enfin, toutes les variables temporaires ou variables utilisées exclusivement pour le traitement ont été supprimées du fichier de traitement final.

Le fichier analytique de l’EAPA de 2012 s’accompagne du cliché d’enregistrement, de la syntaxe SAS et SPSS (Statistical Package for the Social Sciences/ensemble des programmes statistiques relatif aux sciences sociales) servant à télécharger le fichier, ainsi que de métadonnées sous forme de dictionnaire de données, qui décrit chaque variable et fournit des fréquences pondérées et non pondérées.

Le FMGD fait l’objet d’un traitement plus exhaustif pour la protection de la confidentialité des répondants. Afin d’assurer la non-divulgation des données confidentielles, le niveau de détail du FMGD n’est pas aussi précis que celui des fichiers analytiques conservés par Statistique Canada. Des mesures sont prises pour empêcher que l’on reconnaisse des répondants comportant des combinaisons de caractéristiques potentiellement identifiables. Ces mesures de protection englobent la limite des régions géographiques comprises dans le fichier, des ajustements aux poids d’enquête, l’examen des chevauchements avec d’autres FMGD publiés, l’exclusion de variables, le regroupement de catégories pour certaines variables, le plafonnement de certaines valeurs numériques extrêmes, ainsi que la détermination des dossiers uniques à risque et des occurrences rares.

Date de modification :