Suivi de la non-réponse aux enquêtes auprès des entreprises
Section 1. Introduction

La recherche en matière de collecte de données est un sujet d’intérêt au sein des organismes statistiques nationaux souhaitant accroître les taux de réponse ou réduire les coûts de la collecte de données. Compte tenu des coûts élevés que représente la collecte de données d’enquête, même une petite augmentation de l’efficacité des procédures de collecte de données peut se traduire par des économies monétaires appréciables. Étant donné que les taux de réponse ont diminué au cours des 20 dernières années, tant pour les enquêtes sociales que pour les enquêtes économiques, le biais de non-réponse a également suscité des préoccupations croissantes.

Dans l’une des premières études traitant de la non-réponse, Hansen et Hurwitz (1946) ont proposé de sélectionner un sous-échantillon de non-répondants, également appelé « un échantillon de suivi de la non-réponse », afin d’éliminer le biais de non-réponse. Cette procédure était la suivante : des questionnaires étaient envoyés par la poste et, après un certain temps, des intervieweurs procédaient à un suivi personnel auprès d’un échantillon de non-répondants, afin d’obtenir leurs réponses. Ils ont montré la façon dont les réponses à l’envoi par la poste initial pouvaient être combinées à celles de l’échantillon de suivi de non-réponse pour obtenir un estimateur sans biais d’un total ou d’une moyenne de population. Ils ont postulé une hypothèse forte voulant que chaque unité de l’échantillon de suivi réponde. Toutefois, dans l’environnement d’aujourd’hui, cette hypothèse n’est pas réaliste, car les entreprises et les particuliers sont de plus en plus réticents à répondre aux enquêtes.

La plupart des études publiées ces 15 dernières années ont porté sur des plans de collecte adaptatifs, également appelés « plans d’enquête adaptatifs », « plans de sondage adaptatifs », « plans de collecte dynamiques », « conception d’enquête adaptative » ou simplement « plans adaptatifs ». Groves et Heeringa (2006) ont défini un plan de sondage adaptatif comme un plan qui utilise des paradonnées, ou des données du processus de collecte, pour apporter des modifications aux procédures de la collecte de données afin d’obtenir des estimations de meilleure qualité par coût unitaire. Beaumont, Bocci et Haziza (2014) ont fait remarquer que la littérature relative aux plans de collecte adaptative était axée principalement sur l’élaboration de procédures visant à réduire le biais de non-réponse d’un estimateur non ajusté pour la non-réponse (voir, par exemple, Schouten, Cobben et Bethlehem, 2009; Peytchev, Riley, Rosen, Murphy et Lindblad, 2010). Beaumont et coll. (2014) ont fait valoir que toute information (par exemple les données auxiliaires, les paradonnées) pouvant être utilisée au cours de la collecte de données pour réduire le biais de non-réponse peut être également utilisée à l’étape de l’estimation. En d’autres termes, le biais dû à la non-réponse pouvant être supprimé à l’étape de la collecte par une procédure de collecte adaptative peut également être supprimé à l’étape de l’estimation par des ajustements appropriés des poids pour la non-réponse. Ils ont suggéré que les procédures de collecte adaptatives, comme la priorisation des appels, ne peuvent pas réduire le biais de non-réponse dans une plus grande mesure qu’un ajustement adéquat des poids pour la non-réponse. Tourangeau, Brick, Lohr et Li (2017) ont également souligné, dans leur article de synthèse, les limites des procédures de collecte adaptatives pour réduire le biais de non-réponse et les coûts.

Jusqu’à maintenant, les ouvrages publiés portant sur des travaux de recherche relatifs à la collecte ont principalement ciblé les enquêtes auprès des ménages, et il existe peu d’études sur ce sujet pour les enquêtes auprès des entreprises, à deux exceptions près : Bosa, Godbout, Mills et Picard (2018) et Thompson, Kaputa et Bechtel (2018). Bosa et coll. (2018) ont développé un score propre à chaque variable reflétant l’importance de suivre une unité d’échantillonnage donnée et ont suggéré une procédure de collecte adaptative reposant sur ce score. Les unités exhibant un score élevé contribuent le plus à réduire la variance des estimateurs ponctuels. La priorité est donnée à ces unités dans un contexte d’opérations de collecte coûteuses, comme le suivi téléphonique. Thompson et coll. (2018) se sont penchés sur le sous-échantillonnage des non-répondants et ont étudié le problème de la répartition du sous-échantillon soumise à certaines contraintes appliquées au taux de réponse et à la taille de l’échantillon dans des domaines d’intérêt prédéterminés.

Même si les enquêtes-entreprises reposent généralement sur des plans de sondage simples, comme des plans de sondage aléatoire simple stratifié ou des plans d’échantillonnage de Bernoulli, elles présentent certaines caractéristiques qui posent des défis en matière de collecte. Une caractéristique particulière est que les populations des entreprises sont grandement asymétriques, un faible pourcentage d’entreprises représentant la majeure partie des activités économiques. Par conséquent, les enquêtes-entreprises comportent généralement une strate à tirage complet, au sein de laquelle toutes les unités sont sélectionnées avec certitude, et une strate à tirage partiel, au sein de laquelle les unités sont généralement sélectionnées à l’aide d’un échantillonnage aléatoire simple sans remise ou d’un échantillonnage de Bernoulli. Les unités dans la strate à tirage complet correspondent aux grandes entreprises. Ne pas obtenir de réponse de ces grandes entreprises pourrait aboutir à des estimations présentant un biais important. Par conséquent, toutes ces unités font généralement l’objet d’un suivi, et des efforts sont déployés pour assurer la réception de leurs réponses. Les grandes entreprises disposent généralement d’un personnel (par exemple des comptables) capable de répondre aux variables du questionnaire. En revanche, les petites entreprises peuvent devoir payer un comptable externe afin d’obtenir les renseignements demandés; cela pourrait être un facteur contribuant à la non-réponse pour ces entreprises. Une autre caractéristique des enquêtes-entreprises est que la collecte est généralement effectuée en deux étapes. Tous d’abord, des lettres sont envoyées aux unités d’échantillonnage par la poste ou par courriel, les invitant à remplir un questionnaire électronique en ligne. Après un certain temps, on entreprend un suivi des unités non répondantes par interview téléphonique assistée par ordinateur.

Dans la présente étude, nous nous concentrons sur la strate à tirage partiel et tentons de répondre aux questions suivantes : i) Pour un budget de suivi fixe, quel effort devrions-nous consacrer à un suivi répété des non-répondants jusqu’à l’obtention d’une réponse ? ii) Devrions-nous effectuer un suivi auprès de tous les non-répondants ou en sélectionner un échantillon ? iii) Dans le cas de la sélection d’un échantillon de non-répondants, quels plans de sondage mèneraient à des estimateurs plus efficaces ? À notre connaissance, la détermination d’une taille d’échantillon et d’un plan de sondage du suivi appropriés n’a pas été étudiée dans la littérature.

Dans le reste de l’article, nous présentons nos analyses sur le suivi de la non-réponse dans le contexte des enquêtes-entreprises. La stratégie de suivi proposée, qui consiste en un plan de sondage du suivi, une procédure de collecte des données et un estimateur, est présentée à la section 2. À la section 3, nous indiquons quelques propriétés théoriques de la stratégie de suivi proposée. La section 4 rend compte d’une étude par simulations menée pour étudier les propriétés de l’estimateur de Hansen-Hurwitz, ajusté pour la non-réponse, d’un total de population selon différents plans de sondage du suivi et scénarios de réponse. Enfin, la section 5 présente un résumé de nos principales conclusions. Même si nous focalisons sur les enquêtes-entreprises, nous estimons que la plupart de nos conclusions s’appliquent également aux enquêtes sociales.


Date de modification :