Plans de collecte de données adaptatifs visant à minimiser les effets du mode d’enquête – étude du cas de l’Enquête sur la population active des Pays‑Bas 2. Le problème d’optimisation multimodalPlans de collecte de données adaptatifs visant à minimiser les effets du mode d’enquête – étude du cas de l’Enquête sur la population active des Pays‑Bas 2. Le problème d’optimisation multimodal

Dans cette section, nous construisons le problème d’optimisation multimodal qui explique les effets de mode sur une seule variable d’enquête‑clé. Outre le mode d’enquête, nous considérons aussi les limitations du nombre d’appels téléphoniques et d’interviews en personne comme des caractéristiques du plan de sondage dans l’optimisation. Dans le modèle d’optimisation, nous permettons l’attribution de différentes caractéristiques du plan à différentes sous‑populations. L’optimisation peut donc mener à un plan de sondage adaptatif lorsque les probabilités de répartition optimale diffèrent entre les sous‑populations. Dans notre cas, les sous‑populations sont établies à partir de données administratives couplées. Elles peuvent aussi être fondées sur des paradonnées recueillies aux premières étapes de l’enquête. La dernière composante du problème d’optimisation est un ensemble de fonctions explicites de qualité et de coût. Dans notre cas, les fonctions de qualité sont tirées des différences de mode dans le biais de sélection et de mesure et des exigences relatives à la précision des statistiques. Pour la fonction de coût, nous utilisons le total des coûts variables du plan de sondage. Dans les paragraphes qui suivent, nous discutons des composantes du problème d’optimisation.

Nous commençons par les caractéristiques du plan de sondage contenues dans l’ensemble de stratégies de collecte $S .$ Nous considérons des stratégies à mode unique et à mode mixte séquentiel, c’est‑à‑dire des stratégies où un suivi des non‑répondants à un mode d’enquête donné est assuré dans un autre mode. Un mode unique serait désigné par la lettre $M$ et un mode mixte séquentiel serait étiqueté $M_{1} \to M_{2} .$ Nous considérons les enquêtes en ligne, par téléphone et en personne comme les modes d’intérêt et les désignons par les abréviations $W e b,$ $T e l$ et $F 2 F$ (pour « Face-to-Face » en anglais). Des exemples de mode unique et de mode mixte séquentiel sont $T e l$ et $W e b \to F 2 F,$ respectivement. Pour les modes d’interview, nous considérons également une limite $k$ du nombre d’appels, dénoté par $M k .$ Par exemple, $F 2 F 3$ dénote une stratégie de collecte à mode unique qui prévoit un maximum de trois visites pour l’interview en personne. Nous représentons la stratégie de contrepartie par $M k +$ lorsqu’il n’y a pas de limite explicite. Dans cet article, nous n’examinons pas les stratégies à modes mixtes concurrents (deux modes ou plus sont offerts simultanément aux unités de l’échantillon). Cette restriction n’entraîne aucune perte de généralité. Il serait simple d’appliquer la méthodologie à n’importe quel ensemble de stratégies à modes mixtes, y compris les formes hybrides de stratégies à modes mixtes séquentiels et à modes mixtes concurrents. Cependant, un ensemble élargi ou diffus de stratégies s’accompagne d’un plus grand nombre de paramètres d’entrée à estimer. L’ensemble de stratégies de collecte $S$ inclut explicitement la stratégie vide, dénotée par $Φ,$ qui représente le cas où une unité de population n’est pas échantillonnée, c’est‑à‑dire qu’aucune mesure n’est prise pour obtenir une réponse de l’unité. Nous utilisons $S^{R} = S \ {Φ}$ pour désigner l’ensemble de stratégies non vides réelles.

Les unités de population sont réparties entre $G = {1, \dots, G}$ groupes, étant donné un ensemble de caractéristiques $X$ telles que l’âge et l’ethnicité, qui peuvent être extraites des sources de données externes ou des paradonnées. Soit $p (s, g)$ la probabilité de répartition de la stratégie $s$ pour le groupe $g,$ c’est‑à‑dire qu’une proportion $p (s, g)$ de la sous‑population $g$ est échantillonnée et contactée au moyen de la stratégie $s .$ En général, on peut considérer que plusieurs stratégies ont des probabilités d’affectation non nulles, de sorte que la sous‑population est répartie entre plusieurs stratégies. Définissons la probabilité d’affectation $p (Φ, g)$ comme étant la probabilité qu’une unité de la sous‑population $g$ ne soit pas incluse dans l’échantillon. Le ratio $p (s, g) / (1 - p (Φ, g))$ est la probabilité qu’une unité échantillonnée soit affectée à la stratégie $s .$ Par exemple, si seules les probabilités d’affectation à la stratégie vide $p (Φ, g)$ varient et que les probabilités d’affectation $p (s, g), \forall s \in S^{R}$ sont égales à condition que l’unité soit échantillonnée, le plan de sondage est alors stratifié mais non adaptatif. Les probabilités doivent satisfaire la condition suivante :

$\begin{array}{l} \sum_{s \in S^{R}} p (s, g) + p (Φ, g) & = & 1, \forall g \in G, \\ 0 \leq p (s, g) & \leq & 1, \forall s \in S, g \in G . \end{array} (2.1)$

Les probabilités que des stratégies d’enquête soient appliquées à des sous‑populations $p (s, g)$ définissent les variables de décision dans le modèle d’optimisation. De façon plus générale et comme dans le cas des plans d’échantillonnage, nous pourrions tenir compte des dépendances entre les unités de population échantillonnées et/ou affectées à des stratégies non vides $s \in S^{R} .$ Pour ne pas compliquer l’étude de cas, nous supposerons ici que les unités sont indépendantes.

Nous examinons maintenant les fonctions de qualité et de coût. Nous supposons que nous avons intérêt à estimer les moyennes de population d’une variable d’enquête $y .$ Vu que nous considérons le mode d’enquête comme une des caractéristiques du plan de sondage, nous considérons le biais ajusté pour la non‑réponse de $y$ entre le plan proposé et un plan de collecte repère spécifié $BM$ comme la principale fonction de qualité. Ce biais peut être considéré comme l’effet de méthode ajusté pour $BM,$ et il s’agit d’une combinaison de biais de mesure propres à un mode et des biais persistants de non‑réponse propres à un mode après ajustement. Si le plan proposé et le plan de collecte repère sont tous deux à mode unique, le biais est un effet de mode (ajusté) réel. Si seulement un des plans est à modes mixtes, le biais représente une combinaison complexe d’effets de mode (voir par exemple Klausch, Hox et Schouten 2014).

Soit $N_{g}$ la taille du groupe $g,$ $w_{g} = N_{g} / N$ la proportion du groupe $g$ dans la population de taille $N,$ et $ρ (s, g)$ la propension à répondre du groupe $g$ si la stratégie $s$ est retenue. Pour un groupe précis, nous définissons l’effet de méthode ajusté comme étant la différence ajustée pour la non‑réponse entre l’estimation d’enquête ${\bar{y}}_{s, g}$ et une estimation repère ${\bar{y}}_{g}^{BM}$ de la moyenne de la population $\bar{Y},$ où l’estimation d’enquête ${\bar{y}}_{s, g}$ est obtenue par application de la stratégie $s \in S^{R}$ à la sous‑population $g \in G .$ Nous représentons cette différence par $D (s, g) .$ L’effet de méthode ajusté s’exprime comme suit :

$D (s, g) = {\bar{y}}_{s, g} - {\bar{y}}_{g}^{BM}, \forall s \in S^{R}, g \in G . (2.2)$

Par souci de commodité, nous omettons le participe passé « ajusté » dans le reste de l’article et parlons simplement d'effet de méthode pour désigner $D (s, g) .$

Dans cet article, nous cherchons à minimiser l’effet de méthode global absolu prévu pour un plan de collecte repère $BM,$ donné, qui correspond à la moyenne pondérée des effets de méthode $D (s, g)$ par strate et par stratégie de $BM .$ L’effet de méthode global absolu prévu pour $BM$ est égal à

${\bar{D}}^{BM} = | \sum_{g \in G} w_{g} \frac{\sum_{s \in S^{R}} p (s, g) ρ (s, g) D (s, g)}{\sum_{s \in S^{R}} p (s, g) ρ (s, g)} | . (2.3)$

Cette fonction d’objectif représente la variation prévue des séries temporelles de la statistique d’enquête clé lorsque le plan de collecte repère est converti en plan de collecte adaptatif à l’aide des probabilités d’affectation $p (s, g) .$ Si une enquête est nouvelle ou si le plan de collecte repère n’a jamais été mis en application, la fonction d’objectif représente le biais du plan de collecte adaptatif pour le plan de collecte repère. Il s’agit donc d’une fonction d’objectif très utile. Il est à noter que ${\bar{y}}_{s, g}$ est une estimation ajustée pour la non‑réponse de $\bar{Y},$ tandis que $ρ (s, g)$ est une estimation non pondérée de la probabilité de réponse du groupe $g$ dans la stratégie $s .$ Nous supposons implicitement que l’ajustement pour la non‑réponse n’influence pas la contribution de chaque groupe et stratégie à la réponse globale. Cela nous permet d’exprimer la fonction d’objectif comme en (2.4), alors qu’un ajustement pour la non‑réponse dans le cadre d’optimisation pourrait créer un problème très complexe, sinon impossible à résoudre. Nous minimisons l’effet de méthode global ${\bar{D}}^{BM}$ en faisant une affectation optimale des stratégies $s \in S^{R}$ aux groupes $g \in G,$ c’est‑à‑dire

$\underset{p (s, g)}{minimiser} {\bar{D}}^{BM} . (2.4)$

Idéalement, ${\bar{D}}^{BM} = 0.$ Cette situation pourrait toutefois causer de graves problèmes pratiques, notamment parce qu’elle nécessiterait des ressources illimitées. Notre modèle prévoit un certain nombre de contraintes afin de tenir compte de différents aspects pratiques, comme le manque de ressources. Un budget limité $B$ est disponible pour configurer et exécuter l’enquête. Soit $c (s, g)$ le coût unitaire de l’application de la stratégie $s$ à une unité du groupe $g .$ La contrainte de coût est formulée comme suit :

$\sum_{s, g} N_{g} p (s, g) c (s, g) \leq B . (2.5)$

Pour que l’estimation d’enquête de $\bar{Y},$ soit suffisamment précise, il faut un nombre minimal $R_{g}$ de répondants par groupe, ce qui se traduit par la contrainte suivante :

$\sum_{s \in S^{R}} N_{g} p (s, g) ρ (s, g) \geq R_{g}, \forall g \in G . (2.6)$

En plus de la fonction d’objectif, l’effet de méthode entre le plan de collecte proposé et le plan de collecte repère fait partie d’une contrainte dans le problème d’optimisation, à savoir une contrainte sur la comparabilité des sous‑groupes de population. L’effet de méthode global en tant que fonction d’objectif risque de mener à une solution déséquilibrée. Supposons par exemple qu’une stratégie $s$ est appliquée à un groupe $g$ de sorte que l’effet de méthode $D (s, g)$ correspondant est une valeur négative élevée, et que des stratégies produisant des valeurs $D (s, h)$ positives sont appliquées aux autres groupes $h \in G \ {g} .$ La valeur négative élevée $D (s, g)$ est annulée, mais le groupe $g$ aura un comportement très différent des autres groupes, ce qui complique les comparaisons entre les groupes. Pour prévenir ce genre de situation, nous limitons la différence absolue dans l’effet de méthode entre deux groupes au moyen de la contrainte suivante :

$\max_{g, h \in G} {\frac{\sum_{s \in S^{R}} p (s, g) ρ (s, g) D (s, g)}{\sum_{s \in S^{R}} p (s, g) ρ (s, g)} - \frac{\sum_{s \in S^{R}} p (s, h) ρ (s, h) D (s, h)}{\sum_{s \in S^{R}} p (s, h) ρ (s, h)}} \leq M . (2.7)$

Cependant, quand

$\frac{\sum_{s \in S^{R}} p (s, g) ρ (s, g) D (s, g)}{\sum_{s \in S^{R}} p (s, g) ρ (s, g)} - \frac{\sum_{s \in S^{R}} p (s, h) ρ (s, h) D (s, h)}{\sum_{s \in S^{R}} p (s, h) ρ (s, h)} \leq M (2.8)$

est inclus dans le problème d’optimisation pour chaque paire $(g, h) \in G,$ la contrainte (2.7) est automatiquement satisfaite. Pour des raisons pratiques, c’est‑à‑dire pour éviter l’épuisement du cadre d’échantillonnage, nous imposons également une contrainte sur la taille maximale de l’échantillon $S_{max},$ c’est‑à‑dire

$\sum_{s, g} N_{g} p (s, g) \leq S_{max} . (2.9)$

De plus, nous exigeons qu’au moins une probabilité $p (s, g)$ soit strictement positive,

$\sum_{s \in S^{R}} p (s, g) > 0, \forall g \in G, (2.10)$

afin d’éviter les erreurs de calcul telles qu’une division par zéro en (2.8).

La fonction d’objectif (2.4), conjuguée aux contraintes (2.1), (2.5) $-$ (2.10), forme le problème d’optimisation multimodal afin de minimiser les effets de méthode par rapport à une valeur repère au moyen de plans de collecte adaptatifs. Il s’agit d’un problème non linéaire non convexe.

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N^o 12-001-X au catalogue

Périodicité : Semi-annuel

Ottawa

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche