3.4 Traitement
3.4.1 Codage
Début du texte
Le codage est tout processus qui attribue une valeur (un code) à une réponse. Cela signifie que le codage consiste soit à attribuer un code à une réponse donnée, soit à comparer la réponse à un ensemble de codes et à sélectionner celui qui décrit le mieux la réponse. Le code peut être une valeur numérique ou une chaîne de caractères. Il peut y avoir différentes manières de réaliser cette traduction, mais les différentes approches de codage affectent la qualité et le coût des données produites.
Les questionnaires comportent généralement deux types de questions : les questions fermées et les questions ouvertes. Les réponses à ces questions affectent le type de codage effectué. La question suivante est un exemple de question fermée :
Dans quelle mesure le sport est-il important pour vous procurer les avantages suivants?
<1/> Très important
<2/> Quelque peu important
<3/> Pas important
La question suivante est un exemple de question ouverte :
Quels sont les sports que vous pratiquez?
Veuillez préciser______________
Dans le cas des questions fermées, les catégories de réponse sont déterminées avant la collecte, le code apparaissant généralement sur le questionnaire à côté de chaque catégorie de réponse. Pour les questions ouvertes, le codage a lieu après la collecte et peut être manuel ou automatisé. Pour certaines questions, le codage peut être simple (par exemple, l'état civil). Dans des cas plus complexes, comme la géographie, l'industrie et la profession, un système de codage standard est fortement recommandé lorsqu’il est disponible. Mais pour de nombreuses questions pour lesquelles il n'existe pas de système de codage standard, déterminer un bon schéma de codage est une tâche non triviale.
Systèmes de codage automatisés
Le codage manuel nécessite une interprétation et un jugement de la part du codeur, et peut varier d'un codeur à l'autre. En raison des progrès technologiques, des contraintes de ressources et, surtout, des préoccupations relatives à la rapidité et à la qualité, le codage devient de plus en plus automatisé.
En général, deux fichiers sont entrés dans un système de codage automatisé. Un fichier, appelé le fichier d'entrée, contient soit les réponses à l'enquête, soit les fichiers administratifs qui doivent être codés. L'autre fichier est appelé le fichier de référence, qui contient l'ensemble de codes prédéterminé. Ensuite, pour chaque enregistrement du fichier d'entrée, une recherche est effectuée dans le fichier de référence. Si une correspondance est trouvée, le code dans le fichier de référence est attribué à l'enregistrement correspondant du fichier d'entrée. Sinon, le code est laissé en blanc. Certains des avantages d'un système de codage automatisé sont que le processus devient de plus en plus rapide, cohérent et abordable.
De nombreux systèmes automatisés sont déjà utilisés à Statistique Canada. Par exemple, les fichiers de données de l'Enquête sur la population active sont recueillis auprès des bureaux régionaux de Statistique Canada et passent par un système de codage automatisé qui attribue des codes d'industrie et de profession basés sur le Système de classification des industries de l'Amérique du Nord (SCIAN) et la Classification nationale des professions (CNP). Les enregistrements rejetés (ceux qui n’ont pas de correspondance avec la réponse écrite) sont les seules données à être codées manuellement.
Récemment, des techniques d'apprentissage automatique ont été utilisées par le Registre des entreprises de Statistique Canada pour faciliter l'attribution des codes industriels à partir des noms et adresses des entreprises. Cela permet d'améliorer la couverture du Registre des entreprises, qui est la base de sondage de la majorité des enquêtes auprès des entreprises de Statistique Canada, et, par conséquent, d'améliorer la qualité des données de nombreuses enquêtes auprès des entreprises.
- Date de modification :