3.4 Traitement
3.4.4 Imputation

Début du texte

La vérification n'a que peu de valeur pour l'amélioration globale des résultats réels de l'enquête si aucune mesure corrective n'est prise lorsque les éléments ne respectent pas les règles établies au cours du processus de vérification. Lorsque toutes les données ont été vérifiées à l'aide des règles appliquées et qu'un fichier présente des données manquantes, l'imputation est généralement effectuée dans le cadre d'une étape distincte.

Les valeurs manquantes ou invalides ont un impact certain sur la qualité des résultats de l'enquête. L'imputation est le processus utilisé pour attribuer des valeurs de remplacement aux valeurs manquantes, invalides ou incohérentes qui ont échoué aux vérifications. Cette opération intervient après un suivi des répondants (si possible), une révision manuelle et une correction des questionnaires (le cas échéant). À ce stade, tous les types d'erreurs sont corrigés, y compris les erreurs commises par les répondants et les erreurs survenues lors du codage et de la saisie des données.

Les procédures d'imputation visent à combler les lacunes. En général des modifications sont apportées à un nombre minimal de champs jusqu'à ce que l'enregistrement complet passe toutes les vérifications. Lorsque ces erreurs sont détectées, les valeurs des entrées invalides, manquantes ou incomplètes sont imputées ou remplacées par des valeurs appropriées, et des réponses sont fournies pour les questions sans réponse. Cette procédure est mieux accomplie par ceux qui ont un accès complet aux microdonnées et qui sont en possession de bonnes informations auxiliaires.

Bien que l'imputation puisse améliorer la qualité des données finales, il faut veiller à choisir une méthode d'imputation appropriée. Certaines méthodes d'imputation ne préservent pas la relation entre les variables. En fait, certaines peuvent même fausser les distributions sous-jacentes.

Voici quelques méthodes d'imputation des données couramment utilisées :

  • L'imputation déductive est généralement la première méthode utilisée. Cette méthode est utilisée lorsqu'une valeur peut être déduite avec certitude et qu'elle peut être réalisée pendant la collecte, la saisie, la vérification ou les étapes ultérieures du traitement des données. L'imputation déductive est utilisée lorsqu'il n'y a qu'une seule réponse possible à la question (par exemple, toutes les valeurs sont données, mais le total ou le sous-total est manquant).
  • L’imputation par donneur de l’enquête (hot deck) utilise les valeurs provenant d’un autre enregistrement de la même enquête, qui est désigné comme le donneur, afin de répondre à la question (ou à la série de questions) qui nécessite une imputation. Le donneur peut être sélectionné de manière aléatoire à partir d'un groupe de donneurs présentant le même ensemble de caractéristiques prédéterminées. Par exemple, si un questionnaire a été retourné sans indication du revenu annuel, nous pouvons déterminer les caractéristiques du donneur comme étant des enregistrements ayant la même province, la même profession et le même niveau d'expérience que le répondant de l'enquête nécessitant une imputation. Une liste de donneurs possibles correspondant à ces critères est créée et l'un d'entre eux est sélectionné au hasard. Une fois le donneur trouvé, la réponse du donneur (dans ce cas, le revenu annuel) remplace la réponse manquante ou invalide.
  • L'imputation par donneur d’une autre source (cold deck) est similaire à l'imputation par donneur de l’enquête. La différence est que cette dernière utilise des donneurs de la même enquête tandis que l'imputation par donneur d’une autre source utilise des donneurs d'une autre source, comme des données historiques d'une itération antérieure de la même enquête ou des données administratives.
  • L'imputation par valeur moyenne consiste à remplacer la valeur manquante ou incohérente par la valeur moyenne calculée à partir des unités répondantes ayant le même ensemble de caractéristiques prédéterminées. Par exemple, s'il manque dans un enregistrement un chiffre total pour le revenu annuel d'un individu, on peut imputer le revenu moyen observé dans la province de cet individu pour la même profession avec le même niveau d'expérience que le répondant. L'un des inconvénients de l'imputation par valeur moyenne est qu'elle détruit la distribution et les relations entre les variables en créant un pic artificiel à la moyenne du groupe. Cela réduit artificiellement la variance échantillonnale estimée si l'on utilise les formules conventionnelles de la variance échantillonnale.
  • L'imputation par voisin le plus proche est un autre type d'imputation par donneur. Dans ce cas, il faut élaborer une sorte de critère pour déterminer l'unité répondante qui ressemble le plus à l'unité ayant la valeur manquante, conformément aux caractéristiques prédéterminées. L'unité la plus proche de la valeur manquante est alors utilisée comme donneur.

Il existe d'autres méthodes d'imputation plus sophistiquées, qui utilisent la modélisation statistique pour attribuer une valeur de remplacement.

La méthode d'imputation peut varier d'une enquête à l'autre et même, dans des circonstances particulières, au sein d'une même enquête. Très souvent, différentes méthodes sont combinées entre elles afin de fournir la valeur la plus appropriée pour une variable. Ces méthodes peuvent être appliquées manuellement ou à l'aide d'un système automatisé. Pour faciliter cette tâche, Statistique Canada a mis au point un système généralisé d'imputation pour imputer les données sur la base de l’expertise de statisticiens expérimentés qui ont analysé l'enquête et suggéré les approches pour imputer des données significatives.

Bien que l'imputation puisse améliorer la qualité des données finales, il faut faire preuve de prudence dans le choix d'une méthode d'imputation appropriée. L'un des risques de l'imputation est qu'elle peut détruire des données déclarées pour créer des enregistrements correspondant à des modèles préconçus qui peuvent s'avérer incorrects par la suite. L'adéquation des méthodes d'imputation dépend de l'enquête, de ses objectifs, des informations auxiliaires disponibles et de la nature de l'erreur.

En outre, toutes les méthodes d'imputation peuvent être appliquées à d'autres sources de données, sans se limiter aux données d'enquête. Par exemple, Statistique Canada reçoit et utilise des données financières de l'Agence du revenu du Canada afin de réduire le fardeau de réponse, et ces données administratives comportent souvent des valeurs manquantes ou incohérentes. Afin d'en faire bon usage, des systèmes rigoureux de vérification et d'imputation ont été mis en place pour améliorer la qualité des données avant de passer à l'étape suivante.

Notez également que dans le cas de la non-réponse totale, lorsque très peu ou pas de données ont été collectées pour un enregistrement ou une unité, une approche courante consiste à effectuer une repondération pour tenir compte de la non-réponse, une technique dont il sera question dans la section sur l’estimation.


Signaler un problème sur cette page

Quelque chose ne fonctionne pas? L'information n'est plus à jour? Vous ne trouvez pas ce que vous cherchez?

S'il vous plaît contactez-nous et nous informer comment nous pouvons vous aider.

Avis de confidentialité

Date de modification :