Comment décomposer la variance due à la non-réponse : une méthode fondée sur l’erreur d’enquête totale
Section 1. Introduction

Biemer (2010) décrit l’erreur totale d’enquête comme « l’accumulation de toutes les erreurs susceptibles de se produire dans la conception, la collecte, le traitement et l’analyse des données d’enquête ». Il classe les composantes de l’erreur d’enquête en erreurs d’échantillonnage et erreurs non attribuables à l’échantillonnage, comme les erreurs dues à la non-réponse, la couverture, la mesure et le traitement des données. Ces erreurs sont susceptibles d’avoir une incidence sur la variance, le biais ou les deux. Le paradigme de l’erreur totale d’enquête vise à maximiser la qualité de l’enquête en réduisant le plus possible l’erreur totale d’enquête dans le cadre de contraintes de ressources prédéterminées comme le budget, les ressources humaines ou le temps.

À Statistique Canada, l’Architecture opérationnelle du Bureau a lancé le Programme intégré de la statistique des entreprises (PISE) comme plateforme normalisée de plus de 140 enquêtes économiques dans un objectif d’efficacité et d’amélioration de la qualité et de l’adaptabilité. Ainsi, l’un des piliers du programme consiste à réduire les coûts de collecte tout en gérant les erreurs dues à la non-réponse. C’est pourquoi le programme repose sur un plan adaptatif permettant de traiter différemment les différentes unités. Pour en savoir plus sur le PISE, voir Statistique Canada (2015). Groves et Heeringa (2006) montrent comment on peut utiliser les paradonnées pour augmenter le taux de réponse. Schouten, Calinescu et Luiten (2013) ont présenté un cadre général de plan d’enquête adaptatif et expliqué comment l’indicateur R pourrait être utilisé dans ce contexte.

On a élaboré un nouveau modèle de processus d’enquête, dit modèle des « estimations en continu », pour traiter le pilier du PISE mentionné ci-dessus. Le modèle des estimations en continu se fonde sur des cycles de traitement et d’estimation itératifs sur toute la période de collecte. Il s’agit essentiellement de calculer les estimations clés avec les indicateurs de qualité connexes à plusieurs moments précis de la période de collecte. Au début, toutes les unités sont attribuées au traitement des enquêtes par autodéclaration, ce qui signifie qu’on demande aux répondants de remplir un questionnaire en ligne. Les efforts de collecte, comme le suivi de la non-réponse par interview téléphonique assistée par ordinateur, sont ensuite effectués sur les unités qui contribuent le plus aux estimations lorsque la qualité est jugée faible d’après les résultats préliminaires des estimations en continu. Cette méthode peut être considérée comme un plan adaptatif puisque les traitements sur les unités dépendent de la qualité des estimations produites pendant la période de collecte. La plupart des travaux relatifs à l’élaboration des plans d’enquête adaptatifs du PISE ont été réalisés après 2010. Godbout, Beaucage et Turmelle (2011), Turmelle, Godbout et Bosa (2012), Mills, Godbout, Bosa et Turmelle (2013), ainsi que Bosa et Godbout (2014) se sont appuyés sur cette idée dans le contexte du plan adaptatif du PISE afin de minimiser le nombre de suivis nécessaires pour atteindre la qualité visée en matière de coefficient de variation.

L’article revient sur le travail effectué jusqu’à maintenant pour le PISE et présente une méthode de décomposition de la variance due à la non-réponse dans un score au niveau de l’item pour une variable d’intérêt donnée dans un domaine. Au moyen de ce score d’item, on cherche à estimer la contribution à la variance assignée à une seule unité. Les unités ayant un score élevé contribueront le plus à réduire la variance et le coefficient de variation qui est souvent utilisé comme indicateur de qualité dans les enquêtes. Cependant, toute enquête comprend généralement plusieurs variables et domaines importants. La méthode proposée calcule d’abord, pour une unité donnée, les scores au niveau des items pour les variables et les domaines importants. Ensuite, on peut combiner les scores des items en un seul score d’unité afin de classer les unités. Par exemple, le score d’unité peut être une somme pondérée ou le maximum de ses scores d’item. L’utilisation la plus attrayante du score d’unité qui en résulte consiste à prioriser les unités, celles qui obtiennent les scores les plus élevés, pour les opérations de collecte les plus coûteuses comme le suivi téléphonique, l’interview téléphonique assistée par ordinateur ou l’interview sur place assistée par ordinateur. L’article suppose que la non-réponse totale et la non-réponse partielle sont traitées dans le plan adaptatif, mais que les traitements sont susceptibles de différer selon le type de non-réponse. Par exemple, des suivis téléphoniques pourraient être effectués en cas de non-réponse totale, tandis que les questionnaires comportant une non-réponse partielle pourraient être examinés par des analystes. Ce type de plan adaptatif produit de fortes interactions entre les activités de collecte, les données observées et la qualité mesurée. Bosa et Godbout (2014) montrent la façon dont cette technique a été mise en œuvre dans le PISE dans le cadre du modèle des estimations en continu.

L’article mettra l’accent sur la dérivation du score des items. Pour ce faire, on étudiera le cas particulier d’une seule variable d’intérêt dans un domaine. De plus, on utilisera une seule méthode d’imputation pour imputer la variable d’intérêt en cas de non-réponse afin de simplifier la notation et de rendre les résultats plus lisibles.

Le cadre d’inférence est décrit dans la section 2. Dans la section 3, la décomposition de la variance au niveau de l’unité est exprimée. En d’autres termes, la contribution de chaque unité non répondantes à la variance est calculée. On a réalisé une étude par simulation pour évaluer le score proposé. L’étude est décrite dans la section 4. Enfin, des réflexions et des conclusions sont présentées dans la section 5.


Date de modification :